- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
lvny工具文档obots
网站工具Robots.txt 是存放在站点根目录下的一个纯文本文件。虽然它的设置很简单,但是作用却很强大。它可以指定搜索引擎蜘蛛只抓取指定的内容,或者是禁止搜索引擎蜘蛛抓取网站的部分或全部内容。使用方法:Robots.txt 文件应该放在网站根目录下,并且该文件是可以通过互联网进行访问的。例如:如果您的网站地址是 /那么,该文件必须能够通过 /robots.txt 打开并看到里面的内容。格式:User-agent:用于描述搜索引擎蜘蛛的名字,在 Robots.txt 文件中,如果有多条User-agent记录说明有多个搜索引擎蜘蛛会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何搜索引擎蜘蛛均有效,在 Robots.txt 文件中,User-agent:*这样的记录只能有一条。Disallow:用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow开头的URL均不会被Robot访问到。举例:例一:Disallow:/help是指/help.html 和/help/index.html都不允许搜索引擎蜘蛛抓取。例二:Disallow:/help/是指允许搜索引擎蜘蛛抓取/help.html,而不能抓取/help/index.html。例三:Disallow记录为空说明该网站的所有页面都允许被搜索引擎抓取,在/robots.txt文件中,至少要有一条Disallow记录。如果/robots.txt是一个空文件,则对于所有的搜索引擎蜘蛛,该网站都是开放的可以被抓取的。#:Robots.txt 协议中的注释符。综合例子 :例一:通过/robots.txt禁止所有搜索引擎蜘蛛抓取/bin/cgi/目录,以及 /tmp/目录和 /foo.html 文件,设置方法如下:User-agent: *Disallow: /bin/cgi/Disallow: /tmp/Disallow: /foo.html例二:通过/robots.txt只允许某个搜索引擎抓取,而禁止其他的搜索引擎抓取。如:只允许名为slurp的搜索引擎蜘蛛抓取,而拒绝其他的搜索引擎蜘蛛抓取 /cgi/ 目录下的内容,设置方法如下:User-agent: *Disallow: /cgi/User-agent: slurpDisallow:例三:禁止任何搜索引擎抓取我的网站,设置方法如下:User-agent: *Disallow: /例四:只禁止某个搜索引擎抓取我的网站如:只禁止名为“slurp”的搜索引擎蜘蛛抓取,设置方法如下:User-agent: slurpDisallow:
网站日志,是服务器端自动生成的一个文本记录,详细记载了网站的访问详情,做为站长的你,如果是需要查看访问统计数据,那用51.la或者百度统计 工具就可以了,但是如果你想查看各搜索引擎的蜘蛛是否准时来爬行自己的网站,那就要学会自己查看网站日志文件了。结合我们自己的网站做为一个实例来做一个介绍:
首先利用FTP工具登录服务器端,一般在服务器根目录之下存在一个logs文件夹,这里面装的就是网站日志,当然不同的服务器类型,日志文件的文件夹名称和我介绍的不一样,但没关系,日志文件的扩展名是log。
进入日志文件夹,你会发现,日志文件是按每一天的访问情况为一个文件保存的:
好吧,我的服务器只保留最近三天的日志文件,真小气,我还用过一个国外的服务器,人家是按月记录,并且当月结束后会将当月的日志打包供下载,只要你不人为删除,该日志文件会永远存在,这才叫个性化,但是没办法,谁叫我们只能用国内的服务器。
OK,报怨了几句,随便下载一天的日志文件,用Windows文本工具打开该日志文件,会看到一堆酷似代码的字符,祝文件大小打开速度也不同:
注意看有背景的这一小部分,我用CTRL+F搜索功能查找baiduspider,好吧,为什么要查找baiduspider,这里先普及一下关于搜索引擎蜘蛛的一点小知识,各大搜索引擎的蜘蛛都有名字:
百度的叫baiduspider;
谷歌的叫Googlebot;
微软的叫bingbot;
搜狐的叫Sogou web spider;
腾讯的叫Sosospider;
因为国内主要是以百度为优化对象,我们来看看关于百度蜘蛛爬行记录的信息分析,在日志记录中随便找一个百度蜘蛛的信息:
6 - - [07/Sep/2012:19:16:21 +0800] GET / HTTP/1.1 200 5374 - Mozilla/5.0 compatible; Baiduspider/2.0; +/search/spider.html
怎么解读这
您可能关注的文档
- ielts_雅思分及以上范文资料大全.doc
- IELTS作文词和句型总结IELTS作文词汇和句型总结.doc
- IELTS写作分词汇记忆.doc
- IEW参考题1(接工艺).doc
- IELTS学术类读黄金法则及解题全攻略.doc
- IE工业工程培训公开课.郭晓宁老师).doc
- IE动作分析资料DOC 14).doc
- IE工业工程培训广东公开课 深圳公开课 珠三角公开课).doc
- IE工业工程应用实战技法提升.doc
- IE工业工程方法术之事务工程分析.doc
- 2025年网络文学平台版权运营模式创新与版权保护体系构建.docx
- 数字藏品市场运营策略洞察:2025年市场风险与应对策略分析.docx
- 全球新能源汽车产业政策法规与市场前景白皮书.docx
- 工业互联网平台安全标准制定:安全防护与合规性监管策略.docx
- 剧本杀剧本创作审核标准2025年优化与行业自律.docx
- 2025年新能源电动巡逻车在城市安防中的应用对城市环境的影响分析.docx
- 全渠道零售案例精选:2025年行业创新实践报告.docx
- 2025年网约车司乘纠纷处理机制优化与行业可持续发展报告.docx
- 2025年宠物烘焙食品市场法规政策解读:合规经营与风险规避.docx
- 2025年宠物行业数据安全监管政策影响分析报告.docx
文档评论(0)