Robots的作用与写法

he911450 发表于 2024-9-29 02:36:09

一、    什么是robots?有什么用？“Robots”被一些同行朋友叫作“萝卜丝”，它是搜索引擎的机器协议。全称是“网络爬虫排除协议”。网站通过Robots协议来告诉搜索引擎，哪些页面可以抓取，哪些页面不能够抓取。因为网站的很多目录如果被抓取是有风险的，或者是因为利益原因不能被抓取，所以需要告诉蜘蛛人你网站允许与不允许的情况。Robots是放在网站根目录下面，名称为：robots.txt二、    Robot有哪些指令？Robots 的指令很简单，只有三个指令，一般我们也会把地图放在上面，方便蜘蛛进站抓完Robots就直接顺着地图爬。User-agent: 此指令定义了此指令下面的内容对哪些蜘蛛有效。默认所有蜘蛛都允许抓取，如果此指令指定了特定的蜘蛛，那么此指令下跟的内容就对特定蜘蛛有效。Disallow: 此指令定义了禁止蜘蛛抓取哪些因为，有些人可能认为，做网站当然都希望被抓取了。错，如果是后台或是隐私文件，相信谁都不愿意被抓取的。Allow: 此指令定义了允许蜘蛛抓些哪些内容，如果是某些内容允许，其它全部拒绝，则可以用这个指令，大多数网站只用到禁止指令。
Sitemap: 顾名思义，就是我们常说的站点地图了。在这里我们就不详细介绍站点地图了，蜗牛WEO会在下一节给大家详细介绍站点地图的作用与用法。我们把站点地图放在Robots下面，可以方便蜘蛛直接在访问Robots时就访问到你的地图位置。三、    Robots的写法1、 User-agent: 是用来定义蜘蛛名的：常见的蜘蛛名包括：Baiduspider、Googlebot、MSNBot、Baiduspider-image、YoudaoBot、Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider、Sosospider、PangusoSpider、JikeSpider、yisouspider、EasouSpider。2、          Disallow：是用来定义什么内容不允许蜘蛛抓取，robots中最难用，而且最常出现问题的就是Disallow指令。或者说整个robots的精髓就在于Disallow,学好了这个指令的用法你就能写出完美的Robots.下面我就把我们最常用到的一些Disallow的用法给大家列出来。禁止整站被抓取：Disallow: /禁止根目录下的woniuseo目录抓取：Disallow: /woniuseo/禁止根目录下的woniuseo目录下的单个页面woniuseo.html被抓取：Disallow：/woniuseo/woniuseo.html禁止全站含有？的页面被抓取：Disallow:/*？*禁止全站含有woniuseo的页面被抓取：Disallow:/*woniuseo*禁止全站后缀为.aspx的页面被抓取：Disallow:/*.aspx$禁止全站后缀为.jpg的文件被抓取：Disallow:/*.jpb$3. Allow:允许命令一般不单独拿来使用，允许命令一般是先允许某个目录被抓取，然后再禁止其它所有页面被抓取。允许所有页面被抓取：Allow: /允许woniuseo的目录被抓取：Allow: /woniuseo/允许抓取.html的页面：Allow: /*.html$允许抓取.jpg的图片：Allow: /*.jpg$
四、    Robots的应用
[*]蜗牛自己的网站的robots文件是这样写的：
User-agent: *Disallow: /wp-admin/Disallow: /wp-content/Disallow: /wp-includes/Disallow: /tag/Disallow: /wp-config.phpAllow: /sitemap:http://www.woniuseo.com/sitemap.xml
[*]禁止所有搜索引擎抓取所有页面：
User-agent: *Disallow: /这种情况一般用在新站建好还没正式上线，不希望蜘蛛抓取时。
[*]禁止百度蜘蛛抓取所有页面：
User-agent: BaiduspiderDisallow:/淘宝就因为与百度的利益关系，从2008年就禁止百度抓取它所有页面了。
[*]仅允许百度蜘蛛抓取所有页面：
User-agent: BaiduspiderAllow:/User-agent: *Disallow: /
[*]禁止所有蜘蛛抓取特定的目录和页面,允许其它所有：
User-agent: *Disallow:/sys-admin/Disallow:/aboutwoniu.htmlAllow:/
[*]仅允许蜘蛛抓取.html的页面与.jpg的图片：
User-agent:*Allow: /*.html$Allow: /*.jpg$Disallow:/
[*]禁止所有动态的页面的抓取，允许其它：
User-agent: *Disallow:/*?*Allow:/
[*]允许某个目录下某个目录被抓取，禁止其它
User-agent: *Allow: /woniuseo/woniuseo/Disallow:/woniuseo/五、    关于robots的网络大事件
[*]淘宝封杀
2008年9月8日，淘宝网宣布封杀百度爬虫，百度忍痛遵守爬虫协议。因为一旦破坏协议，用户的隐私和利益就无法得到保障，搜索网站就谈不到人性关怀
[*]京东封杀
2011年10月25日，京东商城正式将一淘网的搜索爬虫屏蔽，以防止一淘网对其的内容抓取。
[*]BE违规抓取Evay
美国BE拍卖公司无视Ebey公司网站 robots协议，终于2000年2月被告上法庭，最终被判Be侵权。
[*]360搜索无视robots协议
2012年8月，360综合搜索被指违反robots协议，被业内指为“违规”警告。

页: [1]

牛牛论坛's Archiver

Robots的作用与写法