- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Robots协议:友好沟通工具而不是竞争武器7
Robots 协议:友好沟通工具而不是竞争武器;利用 Robots 协议进行不正当竞争行为,积极营造鼓励创新、
公平公正的良性竞争环境。;四、抓取会对投票等 CGI 脚本造成负面影响,可能出现虚; 但通常来说,用户在利用搜索引擎检索到内容网站时,对
内容网站并不构成伤害,反而会为内容网站带来更多用户。绝
大多数网站非但不会使用 Robots 协议禁止搜索引擎抓取,反
而希望自己的网站内容能够更快、更全面地被搜索引擎收录,
并展现在搜索结果的前列,由此也催生出搜索引擎竞价排名、
SEO(搜索结果优化)等商业模式。; 商业网站大多会在 robots.txt 中提供 SiteMap 文件链接
地址,为搜素引擎指路,方便爬虫更好地抓取网站内容。此外,
网站也可以使用 robots.txt 屏蔽网站中一些比较大的文件,
如:视频、图片等,节省服务器带宽,也可以屏蔽网站的一些
死链接。; 另一类是如 Facebook、LinkedIn、Twitter 这种采用黑白
名单机制写 robots.txt 的网站,在 robots.txt 中针对每种网
络爬虫规定哪些目录不能抓取,LinkedIn 在 robots.txt 文件
中还列出了申请将网络爬虫加入白名单中的联系方法。Alexa
上有 Robots 协议文件的 TOP100 网站中,有 15 个网站在
robots.txt 中设置了黑白名单,但只有一个是对通用搜索引擎
的爬虫进行了黑名单设置,其他都是针对一些非通用搜索引擎
的特殊爬虫设置黑名单。; Robots 之父MartijnKoster 对 Robots 协议的性质进行
了如下阐述: Robots 协议是一个未经标准组织备案的非官方标
准,它也不属于任何商业组织。本协议不受任何机构保护,所
有现有和未来的机器人不一定使用本协议。Robots 协议是
Robot 创作者们向互联网社区提供的用来保护互联网服务器免
受骚扰的一个通用工具。; 在 2012 年 11 月 1 日,中国互联网协会在北京举行《互联
网搜索引擎服务自律公约》签约仪式。据中国互联网协会胡启
恒理事长介绍,本次公约的制定充分体现了互联网的精神,
一方面,公约对非法律条文规定、国际互联网界拥有共识的
Robost 协议给予了的充分的尊重和肯定。另一方面,互联网是
生而自治的,在日后随着互联网技术应用的不断??展,还会有
许多新兴问题出现,同时也希望业界能够基于诚信、自主自治
的互联网精神来解决互联网的争议,共同讨论和解决出现的问
题。;不利用 Robots 协议进行不正当竞争行为,积极营造鼓励创新、
公平公正的良性竞争环境。
文档评论(0)