he911450 发表于 2024-9-29 02:35:01

搜索引擎的爬虫,抓取,索引与收录过程

搜索引擎爬行,抓取,索引与收录。相信不止一个朋友,或者所是大多数朋友都对这个话题特别的感兴趣。
一、      爬行,抓取,索引,收录原理首先大家要明白一点,各家搜索引擎有所不同,但是所有搜索引擎的工作原理都是千秋有同的。所以,只要你按照搜索引擎的喜好去做好了,那么,有一家搜索引擎喜欢上了你的网站,其它搜索引擎,想不喜欢都难。因为你已经成大众情人了。蜘蛛的工作原理是,进入一个网站后,一边爬行,一边抓取。它在爬行的过程中沿着链接发现新页面,然后“爬”过去抓取新页面。爬行只是一个形象的比喻,实际上并不存在蜘蛛抓取文件时发现链接然后立即跟踪过去这样一个过程。抓取是指蜘蛛发现新的页面后,像浏览器一样打开页面,把页面HTML代码和图像音乐等元素存入数据库。显然,爬行和抓取是相互交织的。抓取是实际发生的我们能够观察到的过程,在原始日志中,蜘蛛的抓取是有完整记录的,比如:抓取确切时间、状态码、抓取的文件是哪个、抓取了多大文件等等。蜘蛛对页面的抓取和浏览器读取文件是基本一样的。蜘蛛抓取文件后存入数据库,程序解析出文件中的链接后将URL存入页面地址库,然后蜘蛛从地址库中按一定规则选取URL进行抓取。蜘蛛不是真的访问页面时看到一个URL就爬过去索引指的是将一个URL的信息进行各种整理,如去重、分词等等,然后将关于这个URL的信息存入数据库,被称为索引库。要注意的是,索引库中关于URL的信息不仅是组成页面内容的关键词及其特征(位置、格式等),还有链接、更新情况等信息。英文索引这个词是index。收录是SEOer们最关心也最常用的词,其实也是4个概念中最不明确的。被收录指的是我们能查到页面被搜索引擎存入了索引库。但进入索引库的URL并不一定被抓取过,这和SEO们的直觉可能是不一样的。二、      搜索引擎会把什么样的数据放进索引库呢?通过蜗牛SEO的解释,相信大家已经清楚,只有你在网站上有更新,蜘蛛才会爬行过后进行抓取,当蜘蛛把抓取的页面放进数据库,搜索引擎分析过后认为有价值,他才会将内容放进索引库。那么,搜索引擎会把什么样的数据放进索引库呢?新的,权威的,用户认可的,很少看见的,我想用这四个词来形容最好不过了。新的就是指原创的,在其它任何一个角落搜索引擎都没有见过的。权威的,是指受到信任的,权重高的,比如腾讯,新浪,搜狐,网易,你在上面发个垃圾信息,搜索引擎都会去收录它。因为它的权重高,它更新的内容多,质量高,被搜索引擎所重视。用户认可的,你写的内容有让用户看下去的愿望,如果你写得内容死气沉沉,用户看着看着想睡觉,我想,用户体验一定不会很好,那么搜索引擎也不会对这样的网页给予高的权重。很少看见的,比如,四川发生地震,广东多了一便SARS病例,深圳举行大运会,北京举行奥运会,这样的信息,这样的信息是具有很强的时效性的,机会稍纵即逝,所以这样的网页搜索引擎一抓到马上就会把它放进索引库里面。三、      收录之后的展现网页收录之后,自然是拿来给用户看的,那么,我们怎么知道哪些内容被收录了呢?
[*]直接通过搜索引擎可以搜索到的数据
[*]用site或是站长工具查询到的收录数据。
[*]时间决定信任度,搜索引擎最先抓到的一般被认为是原创。
[*]收录之后的排序,收录到页面之后,搜索引擎会进行一个排序,根据相关度与质量来给予相应的排序。我们搜索到的一个关键词的排序一般是由网站信任度与同业竞争度来决定的,因此出现了一些关键词很容易排到前面,一些关键词很难排到前面。
四、      如何让快照更新,如何增加收录量与关键词的排名?
[*]投搜索引擎之所好,多创作新的,用户认可的内容。养成定时或定期更新的习惯,让搜索引擎定时爬取。
[*]多创作相关的,优质的内容,让搜索引擎与用户认可你的站点,让用户直接访问网站来获取内容,同时让搜索引擎根据用户的喜好来给你站点高的权重值。

页: [1]
查看完整版本: 搜索引擎的爬虫,抓取,索引与收录过程