计算传播学与网络爬虫-第二章.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第2章 网络爬虫简介01爬虫简介02爬虫的算法分析03爬虫种类04爬虫工具介绍05小结爬虫简介网络爬虫(Web Crawler),又称为网络蜘蛛(Web Spider)或网络铲(Web scraper),是一个自动下载网页的计算机程序或自动化脚本,是搜索引擎的重要组成部分。之所以有这样的称呼,是因为它可以沿着网络“爬行”,先“爬”到对应的网页上,然后把需要的信息“铲”下来。本质上就是一种递归方式。为了找到URL链接,它必须首先获取网页内容,检查这个页面的内容,再寻找另一个URL,然后获取URL对应的网页内容,不断循环这一过程。概念与作用爬虫简介网络爬虫可抓取的信息目标,可分为基于目标网页特征、目标数据模式和目标领域这3种类型。基于目标网页特征指的是爬虫所抓取、存储、索引的对象多为网站或网页,其特征可以是网页的内容特征或链接结构特征等多种形式;基于目标数据模式指的是网络爬虫技术所抓取的数据可转化、映射为目标数据模式;基于目标领域指的是将根据语义去分析不同目标在某一主题领域中的重要程度,从而进行选择性抓取。概念与作用爬虫简介通过网络爬虫可以进行有目的的搜索,包括图片、数据库、音频/视频多媒体等不同数据。网络爬虫技术可以根据所设定的抓取条件,对这些信息含量密集又具有一定结构的数据进行发现和获取,这样可以帮助人们花相对较少的时间去获取相关信息,而信息的来源也将更为准确。概念与作用爬虫简介反爬虫是指网站所有者通过相应的策略和技术手段,防止爬虫程序进行网站数据的爬取。爬虫技术犹如一把双刃剑。面对数据所有者,爬虫的过度爬取带来了几何级数的影响,甚至危害。2016年,大众点评网站起诉百度,称百度未经许可,使用爬虫技术从“大众点评网”上大量获取用户点评信息,用于自家的百度地图及百度知道产品。最终一审判决,要求百度停止不正当竞争行为,并赔偿323万。反爬虫爬虫简介爬虫的影响主要反应在:爬虫占总PV(Page View,页面浏览量)比例较高,变相增加生产运维成本,如占用网络带宽、消耗机器资源,甚至会影响正常用户对网站服务的访问速度,导致网站出现无法访问的情况;重要数据资源被批量抓取,经第三方恶意分析,丧失自身行业竞争力,造成不同程度的经济损失。反爬虫爬虫简介(1) User-Agent检测User-Agent指的是用户在访问站点时所使用的客户端种类和版本,一般指的是所使用的浏览器。它是HTTP协议中的一个字段,在用户访问站点时,服务器通过该字段就可区分是什么浏览器访问的网站。无论是浏览器还是爬虫程序,在向服务器发起网络请求的时候,都会发过去一个头文件——Headers,里面的大多数字段都是用于浏览器向服务器表明身份,对于爬虫程序来说,最需要注意的字段就是User-Agent。几乎所有的网站都会建立User-Agent黑名单,只有属于正常范围的User-Agent才能够正常访问。(1) 模拟User-Agent每个浏览器、知名的爬虫都有其固定的User-Agent,因此只要知道这些浏览器或者知名爬虫的User-Agent就可以伪装成该浏览器访问站点。但知名的爬虫一般都有固定的IP,如搜索引擎的爬虫,不容易伪装。因此伪装浏览器的User-Agent是目前比较主流的伪装方法之一,因为浏览器下载后任何人都可以使用,没有固定的IP地址。当访问一个服务器过于频繁时,单一的User-Agent会被服务器识别为异常访问,需要不断的更换不同浏览器的User-Agent来进行反爬。反爬虫爬虫简介(2) 访问频率限制一般来说,普通用户访问一个网站时往往需要10秒以上,在没有做出限制时,爬虫一秒能够爬取上百个页面,但是这样的频繁访问会导致目标站点服务器崩溃,因此不少网站会利用这一点对访问频率设定一个阈值,如果一个IP在单位时间内访问频率超过预设的阈值,那么将会对该IP做出访问限制。通常需要经过验证码验证后才能继续正常访问,严重的甚至会禁止该IP访问网站一段时间。(2) 设置访问频率爬虫在一定时间内的爬取量是检验一个爬虫效率的重要标准之一,因此为了加快爬虫的爬取效率,一般在使用爬虫时会采用多线程或多进程的方式来对爬虫节点的CPU内存带宽等资源进行充分利用,理论上在目标站点服务器没有做访问限制的前提下,只要爬虫节点的内存带宽资源足够,采用多进程或多进程的爬虫爬取效率将会直线上升。但实际上,网站的服务器往往会对爬虫一段时间内的访问请求次数做出限制,若超过限制的阀值,则判定该访问是一个爬虫行为,对其封禁或采取其他限制。反爬虫爬虫简介(3) IP地址限制采用爬虫网络技术爬取某个网站的数据时,会发生短时间内发出大量访问请求,而请求IP都是同一个的情况。因此,网站会设置访问阈值,针对超过阈值的异常IP,网站可以禁止其访问。但是由于大量用户公网IP相同,这种方法容易误伤普通用户,所以一般

文档评论(0)

行走的兰花 + 关注
实名认证
文档贡献者

高级营养师持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年12月10日上传了高级营养师

1亿VIP精品文档

相关文档