分布式爬虫任务调度与ajax页面抓取分析-distributed crawler task scheduling and ajax page grabbing analysis.docxVIP
- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
 - 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
 - 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
 - 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
 - 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
 - 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
 - 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
 
                        查看更多
                        
                    
                分布式爬虫任务调度与ajax页面抓取分析-distributed crawler task scheduling and ajax page grabbing analysis
                    摘要摘要随着互联网的迅速发展,数据呈现爆炸性增长,同时人们对数据的采集需求也与日俱增。网络爬虫作为数据获取的有效手段被广泛应用于各类系统中,诸如搜索引擎、舆情监控系统等。然而,面向中小规模系统的网络爬虫面临着两大难题:其一,单机爬虫程序抓取速度慢,已有的开源分布式爬虫框架实现复杂,灵活性不强;其二,虽然Ajax技术以异步加载的方式与服务器交换必要的数据能够提高用户界面响应速度,带来良好的用户体验,但是传统的网页抓取方式无法完整的获取应用了这项技术的页面所包含的信息。这些缺失的信息通常具有重要的研究价值。在面向中小规模系统的分布式爬虫中,任务调度算法的优劣将直接影响系统的抓取效率。因此,本文重点对分布式爬虫的任务调度策略和Ajax页面抓取算法进行了研究。在分布式爬虫的任务调度方面,本文重点研究了主从式架构下的任务调度算法。为了保证各个爬行节点的负载均衡以及系统的可扩展性,本文提出了一种基于一致性哈希的均分负载空间算法。该算法采用了不同于机器节点复制的虚拟节点添加方法,以解决在机器数量较少的情况下系统负载不均衡问题。中心节点在把握系统整体运行状态的基础上采用该算法进行任务调度,并在爬行节点发生变化后进行相应的任务调整。通过实验比较,验证了该算法在负载均衡效率方面获得了提高。在Ajax页面抓取方面,由于单个Ajax页面中包含了许多状态,本文首先采用了经典的状态流图对Ajax页面进行建模,然后提出了基于网页主体内容变化的重复状态检测算法,并利用该算法进行有效元素的XPath特征训练,最后将训练后的结果应用到Ajax页面抓取中。通过实验比较,验证了该方法在保证获取所有数据的情况下能够进一步地减少事件触发总数,缩短页面抓取所消耗的时间,提高了Ajax页面抓取效率。最后,本文提出了支持Ajax页面抓取的分布式爬虫系统总体设计方案,并详细介绍了中心节点和爬行节点各模块的实现细节。通过将分布式爬虫系统成功的应用到网络舆情监控项目中,验证了本文所提出技术的有效性。关键词:分布式爬虫,任务调度,一致性哈希,Ajax爬虫,状态流图模型ABSTRACTABSTRACTWiththerapiddevelopmentofInternet,variousdatashowexplosivegrowth.Atthesametime,thedemandfordatacollectionisgrowing.Astheeffectivewayofdataacquisition,webcrawlerhasbeenwidelyappliedtoalargevarietyofsystems,suchassearchengine,publicopinionmonitoringsystemandsoon.Butwebcrawlerforsmalltomedium-sizesystemfacestwodifficultproblems:foronething,deployingcrawlersystemonsinglemachineslowsdownthespeedofdataacquisitionandtheexistingopensourcedistributedwebcrawlerframeiscomplexandlackofflexibility;Foranother,althoughAjaxtechnologywhichexchangesthenecessarydatawithserverinanasynchronouswaycanimproveresponsespeedofuserinterfaceandbringgooduserexperience,thetraditionalwebcrawlingfailstogetcompleteinformationofthewebpageswhichapplyAjaxtechnology.Thesemissingdatausuallyhasagreatvalueforresearch.Indistributedwebcrawlerforsmalltomedium-sizesystem,taskschedulingalgorithmdirectlyinfluencesthefetchingefficiencyofsystem.SothisthesisfocusesonthestudyoftaskschedulingstrategyofdistributedcrawlerandAjaxpagefetchingalgorithm.Intaskschedulingstrategyofdistributedcrawler,thisthesismainlystudiesthetaskschedulingalgorithmunderthe
                您可能关注的文档
- 非均匀地基沉降对等距柱网框架的内力影响研究-study on the influence of non-uniform foundation settlement on internal force of equidistant column-net frame.docx
 - 非均匀沟道dmos基本参数及其辐照理论的分析-analysis of the basic parameters of dmos with nonuniform channel and its irradiation theory.docx
 - 非上市公司股权价值评估研究——以jh公司为例-research on stock right value evaluation of unlisted companies - taking jh company as an example.docx
 - 非上市民营商业地产企业融资模式研究——以br集团为例-research on financing mode of unlisted private commercial real estate enterprises - taking br group as an example.docx
 - 非审计服务对审计独立性影响探讨—以新大地为例-probe into the influence of non-audit services on audit independence - taking new land as an example.docx
 - 非农化村庄社区发展策略分析-analysis on the development strategy of non-agricultural village community.docx
 - 非受体酪氨酸激酶c-abl通过cdc25c调控g2m转换的机理研究-study on the mechanism of non-receptor tyrosine kinase c - abl regulating g2m conversion through cdc 25c.docx
 - 非受体酪氨酸激酶c-abl调节微管组装的机理分析-mechanism analysis of non-receptor tyrosine kinase c - abl regulating microtubule assembly.docx
 - 非均匀热流条件下螺旋管内流动与传热特性分析-analysis of flow and heat transfer characteristics in spiral tubes with non-uniform heat flow.docx
 - 非学历教育培训机构市场准入问题的分析——以郑州市为例-analysis on market access of non-academic education and training institutions - taking zhengzhou as an example.docx
 
- 分布式视频编码中关键帧处理技术分析-analysis of key frame processing technology in distributed video coding.docx
 - 分布式视频编码中边信息技术分析-analysis of edge information technology in distributed video coding.docx
 - 分布式探测器红外目标数据关联技术分析-analysis of infrared target data association technology of distributed detectors.docx
 - 分布式视频编码中wz帧编码技术分析-analysis of wz frame coding technology in distributed video coding.docx
 - 分布式数据存储机制与优化方法分析-analysis of distributed data storage mechanism and optimization method.docx
 - 分布式网络管理模型的分析及其关键技术的实现-analysis of distributed network management model and implementation of key technologies.docx
 - 分布式数据中心可生存性及性能优化算法分析-analysis of survivability and performance optimization algorithm for distributed data center.docx
 - 分布式网络的平均一致估计及优化分析-average consistent estimation and optimization analysis of distributed networks.docx
 - 分布式搜索引擎索引安全及缓存策略分析-analysis of index security and cache policy of distributed search engine.docx
 - 分布式天线系统的能效谱效性能研究及高能效设计-study on energy efficiency spectral efficiency performance and high energy efficiency design of distributed antenna system.docx
 
最近下载
- 2023年资料员资格考试题库答案下载.docx
 - 人教版小学语文四年级上册第二单元试卷及答案.pdf VIP
 - 安全与急救(四川警察学院)超星尔雅学习通网课章节测试答案.doc VIP
 - 铁总工电〔2018〕125号普速铁路桥隧建筑物修理规则.docx VIP
 - 煤岩复合体能量传递特性与动力灾害关联性.docx VIP
 - 高血压的危害及有效的降压方法.pptx VIP
 - 生涯发展报告.pdf VIP
 - 数学活动 月历中的奥秘及和为定值的两数积的规律 2025-2026学年人教版数学八年级上册.docx
 - 2026教育部教育技术与资源发展中心(中央电化教育馆)招聘3人(非事业编)笔试备考试题及答案解析.docx VIP
 - 弱电施工方案.doc VIP
 
原创力文档
                        

文档评论(0)