网络爬虫针对“反爬”网站的爬取策略研究.docVIP

下载本文档

15
0
约3.98千字
约 7页
2016-09-16 发布于北京
举报
版权申诉

网络爬虫针对“反爬”网站的爬取策略研究.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

网络爬虫针对“反爬”网站的爬取策略研究.doc

网络爬虫针对“反爬”网站的爬取策略研究　　摘要：随着计算机技术和internet的迅猛发展，信息和知识呈现爆炸性的增长，如何获取和利用信息成为现代社会提高竞争力的重要途径，网络爬虫是达到这一途径的重要工具。该文详细阐述了网络爬虫的体系结构、工作原理和URL搜索策略，针对某些网站采用的“反爬”措施，提出了几种爬取策略，以实现网页的有效爬取。对实际网络爬虫获取信息具有重要的参考价值。　　关键词：网络爬虫；反爬虫机制；搜索引擎　　中图分类号：TP393 文献标识码：A 文章编号：1009-3044（2016）07-0061-03 　　信息和知识爆炸增长的时代，搜索引擎成为人们获取信息的重要工具。搜索引擎释放出来的网络爬虫会大量占用互联网带宽，很可能在短时间内导致网站访问速度缓慢，甚至无法访问。应对此种情况，许多网站采取了一些措施来拦截网络爬虫的爬取。本文在分析网络爬虫原理的基础上，针对“反爬”网站提出了一些有效的爬取策略。　　1网络爬虫概述　　网络爬虫是抓取网页信息的一种程序，它可用来检查一系列站点的有效性，当按照需求抓取并保存数据时，是搜索引擎的重要组成部分。它还可以定向采集某些网站下的特定信息，比如招聘、二手买卖等信息。　　网络上的网页许多都由超链接连接，故形成了一张网，网络爬虫因此也叫做网络蜘蛛，顺着网爬，每到一个网页就抓取信息并抽取新的超链接，用于进一步爬行的线索。网络爬虫爬行的起点叫做种子，可以自己设定也可以从某些系列网站获取。　　1.1网络爬虫的组成　　网络爬虫主要由控制器、解析器和资源库三部分组成。控制器是网络爬虫的控制中心，它负责分配线程并调用爬虫为其分配爬取任务；解析器是网络爬虫的核心，它的主要工作是下载网页并对网页中的信息进行处理，例如删除一些JS脚本、HTML标签和空格字符等，抽取特殊HTML标签的功能，分析数据功能；资源库是用于保存下载的网页资源，并提供生成索引的目标源。一般采用中大型的数据库存储，如Oracle、Sql Server等。　　1.2网络爬虫的工作原理　　网络爬虫的基本工作流程如下：　　1）选取初始种子URL集合；　　2）将URL集合放入待抓取URL队列；　　3）从待抓取URL队列中取出待抓取URL，解析DNS，得到主机IP，将URL对应网页下载并存储至网页资源库。结束后将这些URL放入已抓取URL队列。　　4）从已抓取URL队列中的URL分析出新的满足需求的URL，放入待抓取URL队列。　　5）循环第3步，直至满足停止条件。　　传统网络爬虫框架如图1所示。　　1.3网络爬虫的搜索策略　　网络爬虫在运行过程中，待抓取URL队列是很重要的一部分。待抓取URL队列中的URL如何排序也是一个值得研究的问题，因为这涉及先抓取那个页面，后抓取哪个页面。而排列URL顺序的方法，叫做抓取策略。常见的网络爬虫策略有：　　1）广度优先搜索策略。在抓取过程中，由根节点开始，完成当前层次的搜索后才跳到下一层次的搜索。该策略实现较为简单，其基本思想是认为与初始URL在一定链接距离内的网页具有主题相关性的概率很大。　　2）深度优先搜索策略。这种策略的主要思想是网络爬虫从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。　　3）最佳优先搜索策略。该策略通过计算 URL 描述文本与目标网页的相似度，或者与主题的相关性，根据所设定的阈值选出有效 URL 进行抓取。　　4）反向链接数策略，反向链接数是指一个网页被其他网页链接指向的数量。反向链接数表示的是一个网页的内容受到其他人的推荐的程度。因此，很多时候搜索引擎的抓取系统会使用这个指标来评价网页的重要程度，从而决定不同网页的抓取先后顺序。　　2如何应对站点反爬虫机制　　网络爬虫会对目标站点发送大量请求，而这样的爬虫机制会消耗不少网站资源，这对于中小型网站的负载是巨大的，甚至因此而崩溃，故不少网站都采取了反爬虫的机制。例如：通过识别爬虫的User-Agent信息来拒绝爬虫，通过Filter过滤网络爬虫，通过网站流量统计系统和日志分析来识别爬虫，利用网站的实时反爬虫防火墙实现策略。为了不被站点判断为爬虫而被拒绝访问请求，此处提供两种方法来维持爬虫的正常运转。　　2.1降低访问请求频率　　降低访问请求频率，在一定程度上是，模仿真人浏览页面的动作，故而不会轻易被网站所封杀，拒绝访问。实现的方法为在访问URL的程序中，将访问请求的线程休眠一段时间。　　具体代码如下：　　try { Thread.currentThread（）.sleep（4000）；　　} catch （InterruptedException e） {