robots文件作用原理.doc

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
robots文件作用原理

Robots,又称搜索引擎公共协议;在SEO里起着举足轻重的作用。为什么这样说呢?让我们了解robots的作用和语法。 一、Robots的作用 Robots的作用主要是控制搜索引擎的抓取,建一个名为robots.txt的文件,存放在网站根目录下,主要有以下几个方面: 1:屏蔽站内的死链接。 2:屏蔽无页面的内容,这点对站点的权重有较大的影响。通过使用robots,我们可以屏蔽掉论坛的会员个人中心、留言板、旅游等站点的在线预订页面、404页面等。通过这样设置,避免搜索引擎抓取这些无内容的页面。 3:屏蔽站点目录:主要是一些程序目录用到——比如后台管理目录,会员管理目录等重要保密信息的目录。 4:屏蔽一些功能页面:比如关于我们、联系我们等分散权重功能页面。 在这里讲述一个很有用的语法, 这个语法的主用是禁止在百度搜索引擎上显示百度快照。“Baiduspider”即百度蜘蛛。对于其他搜索引擎的快照屏蔽也可以使用这个语言。 附:国内搜索引擎的蜘蛛名称 Google蜘蛛名称: Googlebot 百度(Baidu)蜘蛛名称:Baiduspider 雅虎(Yahoo)蜘蛛名称:Yahoo Slurp 有道(Yodao)蜘蛛名称:YodaoBot 搜狗(sogou)蜘蛛名称:sogou spider 腾讯Soso:Sosospider 二、Robots的语法(三个语法和两个通配符) 三个语法如下: 1:User-agent:(定义搜索引擎) 写法:User-agent: * 或搜索引擎的蜘蛛名称 例如User-agent:Googlebot (定义谷歌,只允许谷歌蜘蛛爬取) User-agent:Baiduspider (定义百度,只允许百度蜘蛛爬取) User-agent:*(定义所有搜索引擎) 2:Disallow:(禁止语法) 用来定义禁止蜘蛛爬取的页面或目录。 写法:DisAllow:/文件夹目录/ (表示禁止蜘蛛爬取网站的其中一个目录) 或DisAllow:/文件名称 (表示禁止蜘蛛爬取网站的其中一个页面) 例如:Disallow:/ (禁止蜘蛛爬取网站的所有目录/ 表示根目录下) Disallow:/admin (禁止蜘蛛爬取admin目录) Disallow:/abc.html (禁止蜘蛛爬去abc.html页面) Disallow:/help.html (禁止蜘蛛爬去help.html页面) 整套语法示范: User-agent: * Disallow:/目录1/ (禁止所有搜索引擎的蜘蛛爬取站点的这个目录1) Disallow:/目录2/ (禁止所有搜索引擎的蜘蛛爬取站点的这个目录2) 那么接下来我们会遇到一个问题:如果我一个站点,它的某个目录比如说admin目录;我想禁止admin目录里除了/admin/1.php 这个页面,所有页面都禁止搜索引擎的蜘蛛爬取。如果按照Disallow语法,工作量就相当的大。如何操作,我们且看第三个语法。 3:Allow:(允许语法) 用来定义允许蜘蛛爬取的页面或子目录 例如: Disallow:/ (禁止蜘蛛爬取网站的所有目录) Disallow:/admin (禁止蜘蛛爬取admin目录) Allow:/admin/abc.html(/ 表示根目录下,允许蜘蛛爬去admin目录中的abc.html页面) 从上面我们可以看到allow的出现,解决了我们在屏蔽某些目录的时候,又必须让目录里面的一些文件被蜘蛛抓取的问题。接下来,又出现一个问题;我们如果要批量屏蔽一些相同属性的文件呢,这些文件在不同的目录;用 Disallow也不适合,工作量大。我们接下来看第四个语法。 两个通配符如下: 4:匹配符$和* $ 通配符:匹配URL结尾的字符;* 通配符:匹配0个或多个任意字符; 例1: 充许所有搜索引擎蜘蛛抓取以某个扩展名为后缀的网页地址,代码如下: User-agent: * Allow: .htm$ 说明(其中“.htm”,表示充许搜索引擎蜘蛛抓取所有.htm为后缀的文件,注意,这里并不包括以.html为后缀的文件) 例2: 设定某种类型文件禁止被某个搜索引擎蜘蛛抓取,代码如下: User-agent: * Disallow: /*.htm 说明(其中“.htm”,表示禁止搜索引擎蜘蛛抓取所有以.htm”为后缀的文件,注意,这里并不包括以.html为后缀的文件) 综合例子如下: 例1:禁止搜索引擎抓取特定目录 在这个例

文档评论(0)

asd522513656 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档