lvny工具文档obots.docVIP

下载本文档

0
0
约 8页
2017-03-13 发布于贵州
举报
版权申诉

lvny工具文档obots.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

lvny工具文档obots

网站工具Robots.txt 是存放在站点根目录下的一个纯文本文件。虽然它的设置很简单，但是作用却很强大。它可以指定搜索引擎蜘蛛只抓取指定的内容，或者是禁止搜索引擎蜘蛛抓取网站的部分或全部内容。使用方法:Robots.txt 文件应该放在网站根目录下，并且该文件是可以通过互联网进行访问的。例如：如果您的网站地址是 /那么，该文件必须能够通过 /robots.txt 打开并看到里面的内容。格式：User-agent:用于描述搜索引擎蜘蛛的名字，在 Robots.txt 文件中，如果有多条User-agent记录说明有多个搜索引擎蜘蛛会受到该协议的限制，对该文件来说，至少要有一条User-agent记录。如果该项的值设为*，则该协议对任何搜索引擎蜘蛛均有效，在 Robots.txt 文件中，User-agent:*这样的记录只能有一条。Disallow:用于描述不希望被访问到的一个URL，这个URL可以是一条完整的路径，也可以是部分的，任何以Disallow开头的URL均不会被Robot访问到。举例：例一：Disallow:/help是指/help.html 和/help/index.html都不允许搜索引擎蜘蛛抓取。例二：Disallow:/help/是指允许搜索引擎蜘蛛抓取/help.html，而不能抓取/help/index.html。例三：Disallow记录为空说明该网站的所有页面都允许被搜索引擎抓取，在/robots.txt文件中，至少要有一条Disallow记录。如果/robots.txt是一个空文件，则对于所有的搜索引擎蜘蛛，该网站都是开放的可以被抓取的。#:Robots.txt 协议中的注释符。综合例子：例一：通过/robots.txt禁止所有搜索引擎蜘蛛抓取/bin/cgi/目录，以及 /tmp/目录和 /foo.html 文件，设置方法如下：User-agent: *Disallow: /bin/cgi/Disallow: /tmp/Disallow: /foo.html例二：通过/robots.txt只允许某个搜索引擎抓取，而禁止其他的搜索引擎抓取。如：只允许名为slurp的搜索引擎蜘蛛抓取，而拒绝其他的搜索引擎蜘蛛抓取 /cgi/ 目录下的内容，设置方法如下：User-agent: *Disallow: /cgi/User-agent: slurpDisallow:例三：禁止任何搜索引擎抓取我的网站，设置方法如下：User-agent: *Disallow: /例四：只禁止某个搜索引擎抓取我的网站如：只禁止名为“slurp”的搜索引擎蜘蛛抓取，设置方法如下：User-agent: slurpDisallow: 网站日志，是服务器端自动生成的一个文本记录，详细记载了网站的访问详情，做为站长的你，如果是需要查看访问统计数据，那用51.la或者百度统计工具就可以了，但是如果你想查看各搜索引擎的蜘蛛是否准时来爬行自己的网站，那就要学会自己查看网站日志文件了。结合我们自己的网站做为一个实例来做一个介绍：首先利用FTP工具登录服务器端，一般在服务器根目录之下存在一个logs文件夹，这里面装的就是网站日志，当然不同的服务器类型，日志文件的文件夹名称和我介绍的不一样，但没关系，日志文件的扩展名是log。进入日志文件夹，你会发现，日志文件是按每一天的访问情况为一个文件保存的：好吧，我的服务器只保留最近三天的日志文件，真小气，我还用过一个国外的服务器，人家是按月记录，并且当月结束后会将当月的日志打包供下载，只要你不人为删除，该日志文件会永远存在，这才叫个性化，但是没办法，谁叫我们只能用国内的服务器。 OK，报怨了几句，随便下载一天的日志文件，用Windows文本工具打开该日志文件，会看到一堆酷似代码的字符，祝文件大小打开速度也不同：注意看有背景的这一小部分，我用CTRL+F搜索功能查找baiduspider，好吧，为什么要查找baiduspider，这里先普及一下关于搜索引擎蜘蛛的一点小知识，各大搜索引擎的蜘蛛都有名字：百度的叫baiduspider; 谷歌的叫Googlebot; 微软的叫bingbot; 搜狐的叫Sogou web spider; 腾讯的叫Sosospider; 因为国内主要是以百度为优化对象，我们来看看关于百度蜘蛛爬行记录的信息分析，在日志记录中随便找一个百度蜘蛛的信息： 6 - - [07/Sep/2012:19:16:21 +0800] GET / HTTP/1.1 200 5374 - Mozilla/5.0 compatible; Baiduspider/2.0; +/search/spider.html 怎么解读这