robots文件作用原理.doc

下载文档

8
0
约2.6千字
约 4页
2018-02-19 发布于河南
举报
版权申诉
保障服务

robots文件作用原理.doc

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

robots文件作用原理

Robots，又称搜索引擎公共协议；在SEO里起着举足轻重的作用。为什么这样说呢？让我们了解robots的作用和语法。一、Robots的作用 Robots的作用主要是控制搜索引擎的抓取，建一个名为robots.txt的文件，存放在网站根目录下，主要有以下几个方面： 1：屏蔽站内的死链接。 2：屏蔽无页面的内容，这点对站点的权重有较大的影响。通过使用robots，我们可以屏蔽掉论坛的会员个人中心、留言板、旅游等站点的在线预订页面、404页面等。通过这样设置，避免搜索引擎抓取这些无内容的页面。 3：屏蔽站点目录：主要是一些程序目录用到——比如后台管理目录，会员管理目录等重要保密信息的目录。 4：屏蔽一些功能页面：比如关于我们、联系我们等分散权重功能页面。在这里讲述一个很有用的语法，这个语法的主用是禁止在百度搜索引擎上显示百度快照。“Baiduspider”即百度蜘蛛。对于其他搜索引擎的快照屏蔽也可以使用这个语言。附：国内搜索引擎的蜘蛛名称 Google蜘蛛名称: Googlebot 百度（Baidu）蜘蛛名称：Baiduspider 雅虎（Yahoo）蜘蛛名称：Yahoo Slurp 有道（Yodao）蜘蛛名称：YodaoBot 搜狗（sogou）蜘蛛名称：sogou spider 腾讯Soso:Sosospider 二、Robots的语法（三个语法和两个通配符）三个语法如下： 1：User-agent：（定义搜索引擎）写法：User-agent: * 或搜索引擎的蜘蛛名称例如User-agent：Googlebot （定义谷歌，只允许谷歌蜘蛛爬取） User-agent：Baiduspider （定义百度，只允许百度蜘蛛爬取） User-agent：*（定义所有搜索引擎） 2：Disallow:（禁止语法）用来定义禁止蜘蛛爬取的页面或目录。写法：DisAllow:/文件夹目录/ （表示禁止蜘蛛爬取网站的其中一个目录）或DisAllow:/文件名称（表示禁止蜘蛛爬取网站的其中一个页面）例如:Disallow:/ (禁止蜘蛛爬取网站的所有目录/ 表示根目录下) Disallow:/admin (禁止蜘蛛爬取admin目录) Disallow:/abc.html (禁止蜘蛛爬去abc.html页面) Disallow:/help.html (禁止蜘蛛爬去help.html页面) 整套语法示范: User-agent: * Disallow:/目录1/ （禁止所有搜索引擎的蜘蛛爬取站点的这个目录1） Disallow:/目录2/ （禁止所有搜索引擎的蜘蛛爬取站点的这个目录2）那么接下来我们会遇到一个问题：如果我一个站点，它的某个目录比如说admin目录；我想禁止admin目录里除了/admin/1.php 这个页面，所有页面都禁止搜索引擎的蜘蛛爬取。如果按照Disallow语法，工作量就相当的大。如何操作，我们且看第三个语法。 3：Allow:（允许语法）用来定义允许蜘蛛爬取的页面或子目录例如: Disallow:/ (禁止蜘蛛爬取网站的所有目录) Disallow:/admin (禁止蜘蛛爬取admin目录) Allow:/admin/abc.html(/ 表示根目录下，允许蜘蛛爬去admin目录中的abc.html页面）从上面我们可以看到allow的出现，解决了我们在屏蔽某些目录的时候，又必须让目录里面的一些文件被蜘蛛抓取的问题。接下来，又出现一个问题；我们如果要批量屏蔽一些相同属性的文件呢，这些文件在不同的目录；用 Disallow也不适合，工作量大。我们接下来看第四个语法。两个通配符如下： 4：匹配符$和* $ 通配符：匹配URL结尾的字符；* 通配符：匹配0个或多个任意字符；例1：充许所有搜索引擎蜘蛛抓取以某个扩展名为后缀的网页地址，代码如下: User-agent: * Allow: .htm$ 说明(其中“.htm”，表示充许搜索引擎蜘蛛抓取所有.htm为后缀的文件，注意，这里并不包括以.html为后缀的文件) 例2：设定某种类型文件禁止被某个搜索引擎蜘蛛抓取，代码如下: User-agent: * Disallow: /*.htm 说明(其中“.htm”，表示禁止搜索引擎蜘蛛抓取所有以.htm”为后缀的文件，注意，这里并不包括以.html为后缀的文件) 综合例子如下：例1：禁止搜索引擎抓取特定目录在这个例