分布式爬虫任务调度与ajax页面抓取分析-distributed crawler task scheduling and ajax page grabbing analysis.docxVIP

下载本文档

27
0
约6.02万字
约 77页
2018-05-29 发布于上海
举报
版权申诉

分布式爬虫任务调度与ajax页面抓取分析-distributed crawler task scheduling and ajax page grabbing analysis.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

分布式爬虫任务调度与ajax页面抓取分析-distributed crawler task scheduling and ajax page grabbing analysis

摘要摘要随着互联网的迅速发展，数据呈现爆炸性增长，同时人们对数据的采集需求也与日俱增。网络爬虫作为数据获取的有效手段被广泛应用于各类系统中，诸如搜索引擎、舆情监控系统等。然而，面向中小规模系统的网络爬虫面临着两大难题：其一，单机爬虫程序抓取速度慢，已有的开源分布式爬虫框架实现复杂，灵活性不强；其二，虽然Ajax技术以异步加载的方式与服务器交换必要的数据能够提高用户界面响应速度，带来良好的用户体验，但是传统的网页抓取方式无法完整的获取应用了这项技术的页面所包含的信息。这些缺失的信息通常具有重要的研究价值。在面向中小规模系统的分布式爬虫中，任务调度算法的优劣将直接影响系统的抓取效率。因此，本文重点对分布式爬虫的任务调度策略和Ajax页面抓取算法进行了研究。在分布式爬虫的任务调度方面，本文重点研究了主从式架构下的任务调度算法。为了保证各个爬行节点的负载均衡以及系统的可扩展性，本文提出了一种基于一致性哈希的均分负载空间算法。该算法采用了不同于机器节点复制的虚拟节点添加方法，以解决在机器数量较少的情况下系统负载不均衡问题。中心节点在把握系统整体运行状态的基础上采用该算法进行任务调度，并在爬行节点发生变化后进行相应的任务调整。通过实验比较，验证了该算法在负载均衡效率方面获得了提高。在Ajax页面抓取方面，由于单个Ajax页面中包含了许多状态，本文首先采用了经典的状态流图对Ajax页面进行建模，然后提出了基于网页主体内容变化的重复状态检测算法，并利用该算法进行有效元素的XPath特征训练，最后将训练后的结果应用到Ajax页面抓取中。通过实验比较，验证了该方法在保证获取所有数据的情况下能够进一步地减少事件触发总数，缩短页面抓取所消耗的时间，提高了Ajax页面抓取效率。最后，本文提出了支持Ajax页面抓取的分布式爬虫系统总体设计方案，并详细介绍了中心节点和爬行节点各模块的实现细节。通过将分布式爬虫系统成功的应用到网络舆情监控项目中，验证了本文所提出技术的有效性。关键词：分布式爬虫，任务调度，一致性哈希，Ajax爬虫，状态流图模型ABSTRACTABSTRACTWiththerapiddevelopmentofInternet,variousdatashowexplosivegrowth.Atthesametime,thedemandfordatacollectionisgrowing.Astheeffectivewayofdataacquisition,webcrawlerhasbeenwidelyappliedtoalargevarietyofsystems,suchassearchengine,publicopinionmonitoringsystemandsoon.Butwebcrawlerforsmalltomedium-sizesystemfacestwodifficultproblems:foronething,deployingcrawlersystemonsinglemachineslowsdownthespeedofdataacquisitionandtheexistingopensourcedistributedwebcrawlerframeiscomplexandlackofflexibility;Foranother,althoughAjaxtechnologywhichexchangesthenecessarydatawithserverinanasynchronouswaycanimproveresponsespeedofuserinterfaceandbringgooduserexperience,thetraditionalwebcrawlingfailstogetcompleteinformationofthewebpageswhichapplyAjaxtechnology.Thesemissingdatausuallyhasagreatvalueforresearch.Indistributedwebcrawlerforsmalltomedium-sizesystem,taskschedulingalgorithmdirectlyinfluencesthefetchingefficiencyofsystem.SothisthesisfocusesonthestudyoftaskschedulingstrategyofdistributedcrawlerandAjaxpagefetchingalgorithm.Intaskschedulingstrategyofdistributedcrawler,thisthesismainlystudiesthetaskschedulingalgorithmunderthe