Python网络爬虫与信息提取-网络爬虫的盗亦有道.pptx

下载文档 降价啦

17
0
约1.19千字
约 19页
2021-02-08 发布于湖北
举报
版权申诉
保障服务

Python网络爬虫与信息提取-网络爬虫的盗亦有道.pptx

1、本文档共19页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

“ ” WS02 嵩天 robots.txt 网络爬虫排除标准 Requests 自动爬取HTML页面自动网络请求提交 The Website is the API … 掌握定向网络数据爬取和网页解析的基本能力网络爬虫与信息提取 O4X -Tian 爬取网页玩转网页爬取全网爬取网站爬取系列网站小规模，数据量小爬取速度不敏感 Requests库中规模，数据规模较大爬取速度敏感 Scrapy库大规模，搜索引擎爬取速度关键定制开发 90% Web服务器默认接收人类访问受限于编写水平和目的，网络爬虫将会为Web服务器带来巨大的资源开销服务器上的数据有产权归属网络爬虫获取数据后牟利将带来法律风险网络爬虫可能具备突破简单访问控制的能力，获得被保护数据从而泄露个人隐私性能骚扰法律风险隐私泄露来源审查：判断User‐Agent进行限制检查来访HTTP协议头的User‐Agent域，只响应浏览器或友好爬虫的访问发布公告：Robots协议告知所有爬虫网站的爬取策略，要求爬虫遵守 Robots Exclusion Standard，网络爬虫排除标准作用：网站告知网络爬虫哪些页面可以抓取，哪些不行形式：在网站根目录下的robots.txt文件 /robots.txt User‐agent: * Disallow: /?* Disallow: /pop/*.html Disallow: /pinpai/*.html?* User‐agent: EtaoSpider Disallow: / User‐agent: HuihuiSpider Disallow: / User‐agent: GwdangSpider Disallow: / User‐agent: WochachaSpider Disallow: / # 注释，*代表所有，/代表根目录 User‐agent: * Disallow: / Robots协议基本语法 /robots.txt /robots.txt /robots.txt /robots.txt /robots.txt （无robots协议）实际操作中，该如何遵守Robots协议？网络爬虫：自动或人工识别robots.txt，再进行内容爬取约束性： Robots协议是建议但非约束性，网络爬虫可以不遵守，但存在法律风险爬取网页玩转网页爬取全网爬取网站爬取系列网站访问量很小：可以遵守访问量较大：建议遵守非商业且偶尔：建议遵守商业利益：必须遵守必须遵守原则：类人行为可不参考Robots协议 Robots协议的使用原则 # 注释，*代表所有，/代表根目录 User‐agent: * Disallow: / Robots协议基本语法