那么从文章发表到搜索结果展现要经过哪些过程呢? 一、蜘蛛爬行 首先,文章发表之后,第一步是要想办法让蜘蛛过来爬行网页,我们可以通过在网站地图上面加上我们想要被爬行的网址,定时更新网页,向搜索引擎提交,发外链的方式来让蜘蛛抓取网站上面的内容。 二、抓取-存储 搜索引擎会通过自身系统的算法,来决定对哪些网站施行抓取,以及抓取的内容和频率值。搜索引擎的计算过程会参考您的网站在历史中的表现,比如内容是否足够优质,是否存在对用户不友好的设置,是否存在过度的搜索引擎优化行为等等。
当您的网站产生新内容时,Baiduspider会通过互联网中某个指向该页面的链接进行访问和抓取,如果您没有设置任何外部链接指向网站中的新增内容,则Baiduspider是无法对其进行抓取的。对于已被抓取过的内容,搜索引擎会对抓取的页面进行记录,并依据这些页面对用户的重要程度安排不同频次的抓取更新工作。
需您要注意的是,有一些抓取软件,为了各种目的,会伪装成Baiduspider对您的网站进行抓取,这可能是不受控制的抓取行为,严重时会影响到网站的正常运作。 三、分析,筛选 当你网站的内容被蜘蛛存储到自己的数据库之后,会对它进行分析和,互联网上是否有相同的内容,相同度有多高。你的内容是否有欺骗搜索引擎的行为,或是否有损害用户体验的行为,搜索引擎会根据内容进行筛选,将垃圾内容删除,将有用的内容保留。 四、索引(正常索引) 索引就是我们常说到的搜索引擎的索引量,搜索引擎对抓取回来的内容会逐一进行标记和识别,并将这些标记进行储存为结构化的数据,比如网页的tag、title、meta、descripiton、网页外链及描述、抓取记录。同时,也会将网页中的关键词信息进行识别和储存,以便与用户搜索的内容进行匹配。 五、排序 当搜索引擎将网页进行筛选之后,就会对其进行分词,并根据内容的质量与原创度,给予到不同关键词不同的排序,这就是我们搜索结果中的关键词排名产生的过程。 六、搜索,展现 到第五步,搜索引擎的工作就完成了,第六步就是由用户在搜索引擎的搜索框里面输入我们的目标关键词,然后搜索引擎将我们需要的内容按已排列好的顺序将其展现给我们。此此为止,搜索引擎就完成了整个从发表文章到被用户搜索到的全过程。
|