SEO搜索引擎的工作原理,搜索引擎工作原理的四个步骤是什么

seo优化3个月前更新 xiaolin
39 0

2.3搜索引擎的工作原理

搜索引擎优化的主要任务之一是提高网站的搜索引擎友好性。因此,搜索引擎优化的每个环节都将与搜索引擎工作流有着必然的联系。事实上,搜索引擎优化的研究是对搜索引擎工作流的逆向推理。因此,学习搜索引擎优化应该从了解搜索引擎的工作原理开始。

搜索引擎的主要工作包括:页面捕获、页面分析、页面排序和关键字查询。

页面获取:它是指搜索引擎通过蜘蛛程序在互联网上抓取和存储页面的过程,为搜索引擎开展各种工作提供数据支持。

页面分析:它主要是指对检索到的网页进行信息提取处理,包括网页主体信息的提取和主体信息的分割,为后续建立关键字索引和关键字倒排索引提供基础数据。

页面排序:搜索引擎结合页面的内部和外部因素来计算页面与某个关键字之间的相关性程度,从而获得与该关键字相关的页面排名列表。

关键字查询:搜索引擎从用户接收查询请求,剪切并匹配查询信息,然后将相应的页面排序列表返回给用户。

接下来,本章将介绍搜索引擎的每个主要工作的过程、原理和功能,以及在优化网站时如何处理它。

2.3.1搜索引擎捕获策略

事实上,搜索引擎对网页的检索是互联网上的数据收集;1这是搜索引擎最基本的工作。搜索引擎的数据收集能力直接决定了搜索引擎能够提供的信息量和互联网的覆盖范围,从而影响搜索引擎查询结果的质量。因此,搜索引擎总是试图提高其数据收集能力。

搜索引擎使用数据收集程序来捕获互联网上的数据。我们称这个数据收集程序为蜘蛛程序或机器人程序。

本节将首先介绍搜索引擎捕获页面的过程和方法,然后介绍搜索引擎对捕获页面的存储和维护方法。

1;页面获取过程

在互联网中,URL是每个页面的入口地址,搜索引擎蜘蛛程序通过URL捕获页面。搜索引擎蜘蛛程序从原始URL列表开始,通过URL抓取并存储原始页面;同时,从原始页面中提取URL资源并将其添加到URL列表中。通过这种方式,您可以从Internet获得足够的页面,如图2-1所示。

图2-1搜索引擎捕获页面的简单过程

URL是页面的入口,而域名是网站的入口。搜索引擎蜘蛛程序通过域名进入网站,从而开始爬行网站页面。换句话说,搜索引擎在互联网上抓取页面的首要任务是创建足够大的原始域名列表,然后通过域名进入相应的网站,抓取该网站中的页面。

对于网站,如果你想被包括在搜索引擎中,第一个条件是加入搜索引擎的域名列表。以下是加入搜索引擎域名列表的两种常见方法。

首先,使用搜索引擎提供的网站登录门户向搜索引擎提交网站的域名。例如,Google的网站登录地址是;http://;www.google。com/addurl/;2搜索引擎只会定期更新提交的域名列表。因此,这种方法相对被动,从域名提交到网站收录需要很长时间。以下是中国主流搜索引擎的网站提交门户。

在实践中,我们只需要提交网站的主页地址或域名,搜索引擎就会按照主页中的链接抓取其他页面。

百度:http:// ;www.baidu。com/搜索/url_;提交htm

360: http://info.so.360.cn/site_  ; 提交html中

搜狗:http://nbsp;www.sogou网站。com/反馈/;url反馈。php

谷歌:http://nbsp;www.google。com/addurl/;(您需要注册才能使网站管理员工具提交)。

如果将整个网站视为一棵树,则主页是根,每个页面都是叶。宽度优先;这是一种水平页面获取方法,它从树的较浅层开始,在获取同一层上的所有页面后移动到下一层。因此,在优化网站时,我们应该在浅页面上显示网站中相对重要的信息(例如,在主页上推荐一些热门产品或内容)。因此,通过广度优先抓取,搜索引擎可以首先抓取网站中相对重要的页面。

让我们来看一下广度优先捕获过程。首先,搜索引擎从网站的主页开始,抓取主页上所有链接指向的页面,形成页面集合(a),并解析集合中所有页面的链接(a);然后按照这些链接抓取下一层页面,形成页面集合(B)。通过这种方式,从浅页面递归解析链接以对深页面进行爬网,直到满足特定的设置条件,爬网过程才会停止,如图2-2所示。

图2-2宽度首次捕获过程

深度优先

与广度优先相反,深度优先;这是一种垂直页面获取方法。首先,它跟踪浅页面中的链接以逐步爬行深页面,然后返回浅页面以继续爬行到深页面,直到爬行到最深页面。通过使用深度优先抓取,搜索引擎可以抓取网站中更多晦涩难懂的页面,从而满足更多用户的需求。

让我们来看一下深度优先捕获过程。首先,搜索引擎会抓取网站的主页并提取主页中的链接;然后沿着其中一个链接抓取页面1-1,并提取链接;接下来,按照第1-1页至第2-1页中的链接a-1,并提取链接;然后按照第2-1页中的链接B-1继续抓取更深的页面。这是递归执行的,直到网站的最深页面被爬网或满足设置的条件,它将返回主页并继续爬网,如图2-3所示。

图2-3深度优先捕获过程

大型站点的优先级

因为大型网站比小型网站更可能提供更多、更有价值的内容,如果搜索引擎优先捕获大型网站中的页面,它们可以在更短的时间内为用户提供更有价值的信息。首选大型站点;,顾名思义,抓取互联网上大型网站的页面是一项优先任务。它是搜索引擎中的一种信息检索策略。

如何识别所谓的大型网站?首先,人工梳理前期大站的种子资源,通过大站寻找其他大站;二是系统分析索引网站,以识别那些内容丰富、规模大、信息更新频繁的网站。

大站识别完成后,搜索引擎将优先考虑URL资源列表中的大站页面。这也是为什么大型网站往往比小型网站更及时地捕获内容的原因之一。

高优先级

简而言之,权重是对搜索引擎对网页重要性的评估。所谓的重要性归根结底是网站或网页的信息价值。

高优先级;这是一种网页获取策略,优先考虑URL资源列表中的高权重页面。网页的权重(例如Google PageRank值)通常由许多因素决定,例如网页上外部链接的数量和质量。如果下载了URL,请重新计算所有下载的URL资源的权重值。这是非常低效的,显然是不现实的。因此,搜索引擎倾向于在下载几个URL资源之后计算下载的URL的权重(即不完整的权重计算),以确定与这些URL资源相对应的页面的权重值,从而优先考虑权重值较高的页面。

由于权重计算基于部分数据,因此可能与实际权重不同(即失真)。因此,这种高权重优先获取策略也可以优先考虑辅助页面。

抢夺

暗网络(也称为深度网络、不可见网络、隐藏网络)是指存储在网络数据库中,无法通过超链接访问,但需要通过动态网页技术或手动启动的查询访问的资源集合。它不属于标准搜索引擎可以索引的信息。

1.

描述为了提高页面抓取的效率和质量,搜索引擎将结合多种策略来抓取页面。例如,首先使用广度优先方法将捕获范围扩展到尽可能宽的范围,以获得尽可能多的重要页面;然后使用深度优先方法捕获更多隐藏页面;最后,通过结合暗网络捕获和用户提交的方法来捕获丢失的页面。

4;如何避免重复获取

在互联网上,信息复制是不可避免的。然而,搜索引擎如何识别重复信息?如何判断哪些页面是原创的,哪些页面是复制的?哪些重复信息是有价值的,哪些可以丢弃?本节将提供这些问题的答案。

网站中的重复信息主要包括转载内容和镜像内容。搜索引擎必须能够在分析页面时识别重复信息。因为大量重复信息不仅占用了服务器硬盘上的巨大空间,还增加了用户查找信息的时间,降低了用户体验。然而,这并不意味着所有重复信息都毫无价值。搜索引擎认为,转载内容不如原创内容重要,赋予原创内容页面更多的权重,而镜像内容几乎被忽略。

重新打印页面

重印页;它是指原始页面的内容;3、;相同或相似的页面。然而,搜索引擎如何识别重印页面?首先,它将网页内容划分为N个 区域并进行比较(如果有)i 如果区域(M是搜索引擎指定的阈值)相同或相似,则这些页面被视为重新打印的页面。

如图2-8所示,第1页和第2页是不同网站上的两个页面。其中,框中的A和B是两个不同页面上的正文内容。为了识别这两个页面是否是彼此的转载,搜索引擎首先将两个页面的正文内容分成四个区域进行比较。假设四个区域中的三个相同或相似,则这两页被认为是彼此重印的。

图2-8页面文本内容对比

在确定了页面的相互重印关系之后,搜索引擎然后基于页面的最后修改时间(搜索引擎在抓取页面时存储的附加信息,参见稍后的“页面存储”内容)、页面权重等因素来判断原始页面和重印页面。

镜像页面

具有相同内容的页面是相互的;镜像页;。为了确定页面是否为镜像页面,搜索引擎首先将这些页面划分为N个 要比较的地区,如果这N 如果这些区域的内容相同,则这些页面被视为彼此的镜像页面。然后,将多个因素(例如页面权重值、页面最后修改时间等)集成在一起,以识别哪个是源页面,哪个是镜像页面。

如图2-9所示,第1页和第2页是不同网站上的两个页面。将两页分成三个区域(A-1、A-2、A-3和B-1、B-2、B-3)进行比较。如果三个区域的内容相同,则这两个页面被视为镜像页面。

图2-9页面比较

镜像网站

狭义;镜像站点;它指的是内容相同的网站。形成镜像网站主要有两种情况:第一种是多个域名或IP指向同一服务器的同一物理目录;另一种是将整个网站内容复制到使用不同域名或IP地址的服务器。

为了确定网站是否是彼此的镜像网站,搜索引擎首先确定这些网站的主页和直接链接到主页的页面是否是彼此镜像的页面。如果是,它们就是镜像网站。然后,综合多个因素(如网站权重值、建立时间等)来确定哪个是源网站,哪个是镜像网站。通过这种方式,网页将来将在源网站中被抓取,这就是为什么搜索引擎只抓取很少的网页,甚至不抓取镜像网站的原因。

3搜索引擎通过算法消除页面中的辅助信息(如导航栏、图片等)后获得页面的正文内容。

5;网页更新策略

因为搜索引擎不可能一次抓取网站中的所有页面

事实上,搜索引擎对网站中页面的维护也是以多种方式进行的,这相当于间接为每个页面选择了最合适的维护方法。这样,我们不仅可以减轻搜索引擎的负担,还可以为用户提供及时的信息。

例如,一个网站中有许多不同的页面,包括主页、论坛页面、内容页面等。对于经常更新的页面(如主页),可以使用增量获取来监视它们,以便及时更新网站中相对重要的页面;对于实时性能非常高的论坛页面,我们可以使用分类和定位的爬行方法;为了防止丢失网站中的某些页面,还需要定期获取。

历史更新频率策略

历史更新频率策略;基于这样一个想法:一个网页在过去经常更新,那么它在未来可能会经常更新。例如,对于网站的主页,可以通过其监控来分析其内容更新规则,搜索引擎可以相应地调整其捕获频率和时间点,以便及时获取页面中的最新内容。

用户体验策略

所谓用户体验策略,是指为提高搜索引擎的用户体验而制定的有针对性的网站更新策略。衡量搜索引擎用户体验的指标很多,页面更新的及时性是重要因素之一。

对于搜索引擎中的关键字搜索结果,用户通常只单击前30页。因此,只要及时更新前30个页面,就可以节省搜索引擎资源,增加重要页面的更新频率,也可以满足大多数用户的信息需求。

80/20法则是由著名的意大利经济学家维尔弗雷德·帕累托发现的,他的核心思想是20%的活动可以生产满足80%需求的材料。例如,20%的产品或服务创造了80%的利润,20%的内容满足了80%的用户需求。

6;页面存储

从以上内容中,我们了解了搜索引擎如何抓取和维护页面。接下来,我们需要知道搜索引擎在抓取页面后需要存储哪些信息,以满足以下工作的数据需求。

页面是搜索引擎处理网站信息的基础,搜索引擎的大部分工作都在页面上进行。然而,仅仅依靠页面的内容并不能满足搜索引擎对数据处理的需求。搜索引擎能否在抓取页面的过程中获得越来越多有价值的信息,将直接影响搜索引擎的效率和排序结果的质量。因此,除了存储原始页面外,搜索引擎在抓取页面时还会附加一系列信息(如文件类型、文件大小、上次修改时间、URL、IP地址、捕获时间等),然后将这些信息用作某项工作的基础。例如,如果文件太大,它可能会被搜索引擎放弃;上次修改时间表示页面更新的日期。

2.3.2页面分析

页面获取只是搜索引擎工作的一个基本部分,并不意味着搜索引擎可以在页面获取后立即向最终用户提供查询服务。因为当用户使用搜索引擎进行查询时,他们使用的是一个单词或短语。到目前为止,搜索引擎只能提供整个原始页面,无法返回与用户查询条件匹配的信息。因此,搜索引擎还需要对原始页面进行一系列分析和处理,以迎合用户的信息查询习惯。

如图2-10所示,搜索引擎首先对存储的原始页面进行索引,然后过滤原始页面的标签信息,以提取页面的主体信息;然后,对文本信息进行分割,建立关键词索引,得到页面与关键词的对应关系;最后,对所有关键字进行重组,以建立关键字和页面之间的对应关系。

图2-10网页分析处理流程

1;网页索引

为了提高页面检索的效率,搜索引擎需要对检索到的原始页面进行索引。由于URL是页面的入口地址,索引原始页面实际上是索引页面的URL,因此您可以根据URL快速定位相应的页面。

2;网页分析

网页分析是最重要的

例如,信息过滤后的网页0的内容为“中国广东省深圳市”;然后,在对内容进行分段后生成关键词“中国”、“广东省”和“深圳市”,并对关键词进行索引。这样,搜索引擎可以根据网页0快速定位关键字“中国”、“广东省”或“深圳市”,如图2-12所示。

图2-12页面与关键字的对应关系

然而,用户通过关键字搜索携带相应信息的页面。因此,搜索引擎还需要相应地处理现有信息,建立关键字和页面URL之间的对应表,以便基于关键字快速定位多个页面。这是下面描述的关键字重组问题。

关键字重组

为了迎合用户查找信息的习惯,即根据关键字搜索与关键字相关的页面。因此,搜索引擎需要建立一个关系表,其中关键字是主索引并对应于多个页面,即;关键字反向索引表;。建立关键字反向索引表最重要的任务是重新组织所有页面中的关键字列表。

在索引关键字之后,网页和关键字之间的一对多对应关系已经生成。接下来,搜索引擎重新组织所有页面中的关键词;5建立关键字索引以形成一组不重复的关键字列表,即每个关键字在关键字列表中都是唯一的。这样,可以通过特定的关键字找到一个或多个网页,从而实现根据关键字返回相应页面的功能,如图2-13所示。

图2-13关键字和页面之间的对应关系

5关键词重组是在所有页面中形成一个关键词集合。

在分析和处理原始页面后,搜索引擎可以根据用户的查询条件返回相应的页面列表。然而,简单地将页面列表返回给用户往往不能满足用户的需求。因此,搜索引擎将根据页面和用户查询条件之间的相关性重新排列列表,然后将处理后的列表返回给用户。这就是下面将向您介绍的搜索引擎对页面排序的问题。

2.3.3页面排序

在用户向搜索引擎提交关键字查询信息之后,搜索引擎在搜索结果页面上返回与关键字相关的页面列表,这些页面根据与关键字的接近程度从上到下排列。决定页面顺序的因素很多。本书将介绍几个最常见和最重要的因素,包括页面相关性、链接权重和用户行为。

1;页面相关性

页面相关性;是指页面内容与用户查询的关键词之间的相似度,主要由关键词匹配、关键词密度、关键词分布、关键词权重标签等决定。

关键匹配度

关键字匹配;它是指页面P中的内容与用户查询的关键字K之间的匹配程度,主要由以下两个因素决定。

页面P中是否存在与查询条件关键字K匹配的内容,即页面内容是否包含关键字K。

关键字K在页面P中出现多少次,即页面P中存在多少个关键字K。

为了计算关键字匹配度,搜索引擎为每个页面分配一个关键字匹配值,该值由关键字在页面中出现的次数决定。如果某个关键字在页面上出现一次,并且关键字匹配值为10,那么如果该关键字在页面中出现10次,则关键字匹配值=10*10。

如果这一假设成立,则关键字在页面上出现的次数越多(即,词频越高),页面就越相关,搜索结果将很容易被网站所有者操纵。例如,如果网站想要提高页面的相关性,只需在页面中添加足够的关键字即可。

因此,关键词词频决定页面相关性是极不合理的,这也需要结合关键词密度、关键词分布、关键词权重标签等方面加以限制。

关键词密度

为了有效防止网站所有者恶意操纵搜索结果,搜索引擎应该;关键词频率;以及;网页总词汇;用于测量单词频率的比例(即关键字密度值)

W (相关性)= W (匹配)+ ; W (密度)+nbsp; W (头寸)+nbsp; W (标签)

其中,W(相关性);是页面相关性,W(匹配)是关键字匹配值,WW(位置);是关键字分布值,W (标记)是标记权重值。

例如,页面的内容如下: ;html ; 书信电报;正文 ; 书信电报;b ;搜索引擎优化 /b ; 书信电报;h1 ;搜索引擎 /h1 ;…… ;/正文 ; ;/html 对于关键字“搜索引擎优化”,由于它只出现一次,因此关键字匹配值<i>W</i (匹配)=;10; 如果关键字密度为50%,则关键字密度值<i>W</i (密度)=;20; 如果关键字出现在页面顶部,则关键字分布值W (位置)=;50; 重量标签 ;b ;如果关键字“搜索引擎优化”突出显示一次,则标记权重值W (标签)=10,即W (相关性)=;10+20+50+10。

搜索引擎利用四个主要因素的交互作用,即关键词匹配、关键词密度、关键词分布和权重标签,以改进页面相关性的计算。然而,本节介绍了网站中的一些可控因素。为了提高排序中的信息质量,搜索引擎还引入了一些外部不可控因素来综合评估页面相关性,例如外部链接和用户行为。

2;链接权重

链接主要分为内部链接和外部链接。当计划或编辑页面内容时,网页创建者或编辑器会将它们添加到页面中。加入的原因可能是链接指向的页面非常重要或大多数用户都需要。因此,一个页面获得的链接越多,在某种程度上反映了页面越重要,链接权重值就越高。

如果整个互联网被视为一个有向图,超链接是有向边,网页是节点,那么大多数网页都会有“入口”和“出口”。根据入口的数量和所提供入口的页面权重值来计算页面链接的权重是一个非常好的主意。

假设图2-14是页面之间的关系图,其中V1、V2和V3是网页;箭头方向表示页面贡献链接或从其他页面获得的链接。以网页V2为例。V2分别提供到V1和V3的链接,并获得到V1的链接。

图2-14页面关系图

内部链接

内部链接是指网站内部页面之间的链接关系,它反映了网站内部页面的识别程度。理论上,一个页面获得的链接质量和数量越高,其重要性就越大。

外部链接

外部链接是指站点外部页面之间的链接关系。由于外部链接的不可控制性,外部链接在整个链接关系中占权重的比例更大,是决定整个页面权重的最重要因素。

默认权重分配

网站页面的数量不断变化,但由于时间的原因,即使内容质量很高,新添加的页面获得的链接数量也有限,因此链接权重值通常很低。在这种情况下,搜索引擎需要根据相应的方案补偿这些新页面的链接权重值,以便新页面能够获得更合理的链接权重。

在链接权重补偿方面,搜索引擎将捕获页面的日期作为参考因素。它认为,一个页面在单位时间内获得的链接越多,质量越高,页面的质量就越高。

例如,页面A获得30个链接,页面B获得30个(假设这些链接的质量相等)。然而,A页用了100天,而B页只用了1天。这反映出B页在某种程度上比A页更重要。因此,需要对页面B进行补偿,以使页面B的链接权重值高于页面A的链接权重。

3;用户行为

搜索引擎完成页面的基本权重计算后,可以向用户显示初步排序结果。然而,排序结果可能不能满足大多数用户,因此应结合其他因素来改进排序结果。例如,计算每个搜索结果的点击次数以进行推测

图2-15查询处理流程

1.首先对用户提供的查询条件进行分段,删除查询条件中无意义的词或词,如“de”和“de”。

2.然后以分词结果为条件在关键字反向索引列表中进行匹配。

3.如果有匹配结果,则匹配关键字的所有页面的URL将形成一个列表。

4.最后,将匹配页面从高到低权重值排序并返回给用户。

其中,步骤3和4已在用户查询之前完成。

例如,当用户查询“手机图片”时,搜索引擎会对单词进行分段,得到“手机+图片”的查询条件;然后在关键字反向索引列表中匹配“电话+图片”;结果获得A、B和C;然后计算三页的权重值。如果三个页面的权重值关系是B ;C ;A、 搜索结果列表中三个页面的顺序是B、C和A。

2;用户行为

用户在搜索引擎中的行为主要包括搜索和单击。搜索是为用户获取信息的过程,点击是用户获取所需信息后的表现。

用户的搜索和单击行为包含非常丰富和重要的信息。例如,用户搜索行为包括提交的关键字、提交时间、用户IP地址和其他信息,而点击行为包括每个结果的点击时间和其他信息。

搜索引擎可以通过对用户行为的分析,进一步探索用户的需求,提高搜索结果的准确性。例如,搜索引擎还可以从用户的搜索行为中找到新词;根据用户对搜索结果的点击行为,可以分析用户对每个搜索结果的偏好。

搜索

搜索它是用户获取信息的方式,也是搜索引擎最基本的功能。搜索引擎可以知道在用户的搜索行为中搜索关键字的次数。通过对关键字搜索次数的分析,可以找到新单词,以进一步了解用户的搜索习惯。

随着语言的不断发展,随着时间的推移,会产生越来越多的新词。特别是在互联网环境下,一个热点事件也可能成为一个新词,比如“燕赵门”。

对于搜索引擎来说,新词主要指那些在当前搜索引擎词典系统中不存在但被频繁搜索的关键词。如果搜索引擎词典系统中不存在关键字,则在分词过程中不会生成关键字,因此用户在查询关键字时无法返回相关信息,无法满足用户的需求。因此,搜索引擎学习新词的能力在一定程度上反映了搜索引擎理解语言的能力,是衡量搜索引擎质量的重要指标之一。

将用户搜索习惯与页面内容相结合以发现新关键词是搜索引擎学习新单词的主要方式之一,如图2-16所示。

图2-16新词汇识别过程

分析用户查询日志并过滤掉日志中经常查询的单词。

如果字典系统中不存在查询相对频繁的关键字,请将该关键字与某些页面的内容进行匹配;如果命中,则表示该关键字存在,并将其添加到字典系统中;否则,将匹配下一个查询频繁词。

点击

单击;这是用户在找到所需信息后的表现,反映了用户对信息的关注。因此,用户点击链接也是衡量页面相关性的一个因素,也是衡量页面关联性的重要补充。

在同一关键字的搜索结果列表中,不同的用户会有不同的选择。然而,如果某个结果的点击量明显高于其他结果,则表明大多数用户在某种程度上需要该页面(尤其是当链接位于后面时)。

众所周知,搜索结果中的链接越高,被点击的概率就越高。根据这种逻辑,在第二、第三或第四页上被点击的机会会越来越小,但这并不意味着这些页面并不比首页更重要,但用户没有机会在当前的排序结果中找到它们。因此,搜索引擎将补偿在不同位置单击的链接的权重值。假设每次点击顶部结果将获得1分的补偿

© 版权声明

相关文章

暂无评论

暂无评论...