屏蔽百度蜘蛛的几种方法.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
屏蔽百度蜘蛛的几种方法

一般情况下,网站建立并运营之后总是希望被搜索引擎收录的数量越多越好。但这只是通常情况下,大部分人所希望的。有些时候,我们还是会希望搜索引擎蜘蛛不要访问网站的某些文件夹,当然也有不希望搜索引擎收录的页面。 比如说,网站刚刚建立并没有真正投入运营,还没有实质性的内容时;还有过多的收录页面导致网站权重的分散,而恰恰你想要聚拢权重到某些个最重要的页面时;再比如建立一个镜像网站,并主要通过其他的推广手段(这里指除了SEO以外的推广方法)对网站进行运营时 而搜索引擎收录网站页面是需要通过蜘蛛访问网站,并对页面内容进行抓取。所以通常情况下,想要阻止搜索引擎的收录就需要限制、屏蔽蜘蛛的访问与抓取。下面笔者介绍几种常用的屏蔽蜘蛛抓取的方法。 1.robots.txt规则文件。 大家都知道robots.txt是指引搜索引擎蜘蛛对该网站访问与否的规则,平时运用的也比较多。一般的建议是不论网站是否有需要屏蔽收录的内容,都要在根目录下建立robots.txt文件。 robots.txt文件规则的写法很简单,比如需要屏蔽某一个搜索引擎的蜘蛛访问所有目录,就这样写: User-agent:Googlebot Disallow:/ 再比如禁止所有蜘蛛访问、抓取某一个目录则: User-agent:* Disallow:/admin/ 2.robots Meta标签。 如果说robots.txt是一个放在网站中的规则文件,那robots Meta就是放在某个网页中的标签。两者的实际功能是大致相同的,但robots.txt是大部分搜索引擎都支持的方式,而后者却是大部分搜索引擎都不支持的。另外相比较下,robots Meta用来对某几个页面单独设置时使用。 robots Meta标签必须存放在“head…/head”代码之内: head … meta name=”robots” content=”index,follow” / /head 其中“index”指的是索引,“follow”指的是跟踪链接并传递相应的权重。当然相应的还有“noindex”和“nofollow”,功能则正好相反。 3.服务器配置文件。 这种方法是最不常见的屏蔽蜘蛛的方法,主要用于屏蔽那些“不恪守”robots.txt规则的蜘蛛。 方法就是一段时间的分析网站日志,发现需要屏蔽的蜘蛛以及它的ip。然后通过服务器的配置文件将其屏蔽,从而实现屏蔽某一个蜘蛛抓取网站。当然这种方法运用起来并不灵活,比如不能屏蔽蜘蛛单独对某一个文件夹(或网页)的抓取。 因服务器及其系统的不同,具体还请参见相关设置方法。 除以上提到的三种屏蔽蜘蛛抓取的方法以外,应该是有其他的方法可以达到屏蔽蜘蛛抓取的目的,欢迎各位高手在闲暇之时予以补充。 但就以上三种方法而言,第一种robots.txt规则文件的运用更为广泛。

文档评论(0)

f8r9t5c + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8000054077000003

1亿VIP精品文档

相关文档