lvny工具文档obots.docVIP

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
lvny工具文档obots

网站工具Robots.txt 是存放在站点根目录下的一个纯文本文件。虽然它的设置很简单,但是作用却很强大。它可以指定搜索引擎蜘蛛只抓取指定的内容,或者是禁止搜索引擎蜘蛛抓取网站的部分或全部内容。 使用方法: Robots.txt 文件应该放在网站根目录下,并且该文件是可以通过互联网进行访问的。 例如:如果您的网站地址是 /那么,该文件必须能够通过 /robots.txt 打开并看到里面的内容。 格式: User-agent: 用于描述搜索引擎蜘蛛的名字,在 Robots.txt 文件中,如果有多条User-agent记录说明有多个搜索引擎蜘蛛会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何搜索引擎蜘蛛均有效,在 Robots.txt 文件中,User-agent:*这样的记录只能有一条。 Disallow: 用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow开头的URL均不会被Robot访问到。 举例: 例一:Disallow:/help是指/help.html 和/help/index.html都不允许搜索引擎蜘蛛抓取。 例二:Disallow:/help/是指允许搜索引擎蜘蛛抓取/help.html,而不能抓取/help/index.html。 例三:Disallow记录为空说明该网站的所有页面都允许被搜索引擎抓取,在/robots.txt文件中,至少要有一条Disallow记录。如果/robots.txt是一个空文件,则对于所有的搜索引擎蜘蛛,该网站都是开放的可以被抓取的。 #:Robots.txt 协议中的注释符。 综合例子 : 例一:通过/robots.txt禁止所有搜索引擎蜘蛛抓取/bin/cgi/目录,以及 /tmp/目录和 /foo.html 文件,设置方法如下: User-agent: * Disallow: /bin/cgi/ Disallow: /tmp/ Disallow: /foo.html 例二:通过/robots.txt只允许某个搜索引擎抓取,而禁止其他的搜索引擎抓取。如:只允许名为slurp的搜索引擎蜘蛛抓取,而拒绝其他的搜索引擎蜘蛛抓取 /cgi/ 目录下的内容,设置方法如下: User-agent: * Disallow: /cgi/ User-agent: slurp Disallow: 例三:禁止任何搜索引擎抓取我的网站,设置方法如下: User-agent: * Disallow: / 例四:只禁止某个搜索引擎抓取我的网站如:只禁止名为“slurp”的搜索引擎蜘蛛抓取,设置方法如下: User-agent: slurp Disallow: 网站日志,是服务器端自动生成的一个文本记录,详细记载了网站的访问详情,做为站长的你,如果是需要查看访问统计数据,那用51.la或者百度统计 工具就可以了,但是如果你想查看各搜索引擎的蜘蛛是否准时来爬行自己的网站,那就要学会自己查看网站日志文件了。结合我们自己的网站做为一个实例来做一个介绍: 首先利用FTP工具登录服务器端,一般在服务器根目录之下存在一个logs文件夹,这里面装的就是网站日志,当然不同的服务器类型,日志文件的文件夹名称和我介绍的不一样,但没关系,日志文件的扩展名是log。 进入日志文件夹,你会发现,日志文件是按每一天的访问情况为一个文件保存的: 好吧,我的服务器只保留最近三天的日志文件,真小气,我还用过一个国外的服务器,人家是按月记录,并且当月结束后会将当月的日志打包供下载,只要你不人为删除,该日志文件会永远存在,这才叫个性化,但是没办法,谁叫我们只能用国内的服务器。 OK,报怨了几句,随便下载一天的日志文件,用Windows文本工具打开该日志文件,会看到一堆酷似代码的字符,祝文件大小打开速度也不同: 注意看有背景的这一小部分,我用CTRL+F搜索功能查找baiduspider,好吧,为什么要查找baiduspider,这里先普及一下关于搜索引擎蜘蛛的一点小知识,各大搜索引擎的蜘蛛都有名字: 百度的叫baiduspider; 谷歌的叫Googlebot; 微软的叫bingbot; 搜狐的叫Sogou web spider; 腾讯的叫Sosospider; 因为国内主要是以百度为优化对象,我们来看看关于百度蜘蛛爬行记录的信息分析,在日志记录中随便找一个百度蜘蛛的信息: 6 - - [07/Sep/2012:19:16:21 +0800] GET / HTTP/1.1 200 5374 - Mozilla/5.0 compatible; Baiduspider/2.0; +/search/spider.html 怎么解读这

文档评论(0)

exianwhan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档