搜刮引擎的Robots规矩以及robots协定写律例矩.docVIP

下载本文档

3
0
约1.62万字
约 4页
2017-06-02 发布于河南
举报
版权申诉

搜刮引擎的Robots规矩以及robots协定写律例矩.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

搜刮引擎的Robots规矩以及robots协定写律例矩

搜索引擎的Robots规则以及robots协议写法规则　　robots.txt是一个协议，而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。　　当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。百度官方建议，仅当您的网站包含不希望被搜索引擎收录的内容时，才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容，请勿建立robots.txt文件。　　如果将网站视为酒店里的一个房间，robots.txt就是主人在房间门口悬挂的“请勿打扰”或“欢迎打扫”的提示牌。这个文件告诉来访的搜索引擎哪些房间可以进入和参观，哪些房间因为存放贵重物品，或可能涉及住户及访客的隐私而不对搜索引擎开放。但robots.txt不是命令，也不是防火墙，如同守门人无法阻止窃贼等恶意闯入者。　　搜索引擎的Robots规则　　robots.txt是一种存放于网站根目录下的文本文件，用于告诉搜索引擎的爬虫（spider），此网站中的哪些内容是不应被搜索引擎的索引，哪些是可以被索引。通常认为，robots.txt文件用来搜索引擎对目标网页的抓取。　　robots.txt协议并不是一个规范，而只是约定俗成的，通常搜索引擎会识别这个文件，但也有一些特殊情况。　　对于Google来说，使用robots也未必能阻止Google将网址编入索引，如果有其他网站链接到该网页的话，Google依然有可能会对其进行索引。按照Google的说法，要想彻底阻止网页的内容在Google网页索引中（即使有其他网站链接到该网页）出现，需要使用noindex元标记或x-robots-tag。例如将下面的一行加入到网页的header部分。　　如果Google看到某一页上有noindex的元标记，就会将此页从Google的搜索结果中完全丢弃，而不管是否还有其他页链接到此页。　　对于百度来说，情况和Google类似，如果有其他网站链接目标网页，也有可能会被百度收录，从百度的说明页面上看，百度并不支持像Google那样通过noindex完全将网页从索引上删除，只支持使用noarchive元标记来禁止百度显示网页快照。具体的语句如下。　　搜索引擎Robots协议写法规则　　搜索引擎Robots协议，是放置在网站根目录下robots.txt文本文件，在文件中可以设定搜索引擎蜘蛛爬行规则。设置搜索引擎蜘蛛Spider抓取内容规则。下面Seoer惜缘举例robots写法规则与含义：　　首先要创建一个robots.txt文本文件，放置网站的根目录下，下面就开始编辑设置Robots协议文件：　　一、允许所有搜索引擎蜘蛛抓取所以目录文件，如果文件无内容，也表示允许所有的蜘蛛访问，设置代码如下：　　User-agent: * 　　Disallow: 　　或者　　User-agent: * 　　Allow: / 　　二、禁止某个搜索引擎蜘蛛抓取目录文件，设置代码如下：　　User-agent: Msnbot 　　Disallow: / 　　例如想禁止MSN的蜘蛛抓取就设为，Msnbot代表MSN的蜘蛛，如果想禁止其他搜索引擎就更换蜘蛛名字即可，其他蜘蛛名字如下：　　百度的蜘蛛：baiduspider 　　Google的蜘蛛： Googlebot 　　腾讯Soso:Sosospider 　　Yahoo的蜘蛛：Yahoo Slurp 　　Msn的蜘蛛：Msnbot 　　Altavista的蜘蛛：Scooter 　　Lycos的蜘蛛： Lycos_Spider_（T-Rex）　　三、禁止某个目录被搜索引擎蜘蛛抓取，设置代码如下：　　User-agent: * 　　Disallow: /目录名字1/ 　　Disallow: /目录名字2/ 　　Disallow: /目录名字3/ 　　把目录名字改为你想要禁止的目录即可禁止搜索引擎蜘蛛抓取，目录名字未写表示可以被搜索引擎抓取。　　四、禁止某个目录被某个搜索引擎蜘蛛抓取，设置代码如下：　　User-agent: 搜索引擎蜘蛛名字说明（上面有说明蜘蛛的名字）　　Disallow: /目录名字/ 说明（这里设定禁止蜘蛛抓取的目录名称）　　例如，想禁目Msn蜘蛛抓取admin文件夹，可以设代码如下：　　User-agent: Msnbot 　　Disallow: /admin/ 　　五、设定某种类型文件禁止被某个搜索引擎蜘蛛抓