Python网络爬虫与信息提取-网络爬虫的盗亦有道.pptx

Python网络爬虫与信息提取-网络爬虫的盗亦有道.pptx

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
“ ” WS02 嵩天 robots.txt 网络爬虫排除标准 Requests 自动爬取HTML页面 自动网络请求提交 The Website is the API … 掌握定向网络数据爬取和网页解析的基本能力 网络爬虫与信息提取 O4X -Tian 爬取网页 玩转网页 爬取全网 爬取网站 爬取系列网站 小规模,数据量小 爬取速度不敏感 Requests库 中规模,数据规模较大 爬取速度敏感 Scrapy库 大规模,搜索引擎 爬取速度关键 定制开发 90% Web服务器默认接收人类访问 受限于编写水平和目的,网络爬虫将会为Web服务器带来巨大的资源开销 服务器上的数据有产权归属 网络爬虫获取数据后牟利将带来法律风险 网络爬虫可能具备突破简单访问控制的能力,获得被保护数据 从而泄露个人隐私 性能骚扰 法律风险 隐私泄露 来源审查:判断User‐Agent进行限制 检查来访HTTP协议头的User‐Agent域,只响应浏览器或友好爬虫的访问 发布公告:Robots协议 告知所有爬虫网站的爬取策略,要求爬虫遵守 Robots Exclusion Standard,网络爬虫排除标准 作用: 网站告知网络爬虫哪些页面可以抓取,哪些不行 形式: 在网站根目录下的robots.txt文件 /robots.txt User‐agent: * Disallow: /?* Disallow: /pop/*.html Disallow: /pinpai/*.html?* User‐agent: EtaoSpider Disallow: / User‐agent: HuihuiSpider Disallow: / User‐agent: GwdangSpider Disallow: / User‐agent: WochachaSpider Disallow: / # 注释,*代表所有,/代表根目录 User‐agent: * Disallow: / Robots协议基本语法 /robots.txt /robots.txt /robots.txt /robots.txt /robots.txt (无robots协议) 实际操作中,该如何遵守Robots协议? 网络爬虫: 自动或人工识别robots.txt,再进行内容爬取 约束性: Robots协议是建议但非约束性,网络爬虫可以不遵守,但存在法律风险 爬取网页 玩转网页 爬取全网 爬取网站 爬取系列网站 访问量很小:可以遵守 访问量较大:建议遵守 非商业且偶尔:建议遵守 商业利益:必须遵守 必须遵守 原则:类人行为可不参考Robots协议 Robots协议的使用原则 # 注释,*代表所有,/代表根目录 User‐agent: * Disallow: / Robots协议基本语法

文档评论(0)

***** + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档