- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
我们毕业啦
其实是答辩的标题地方;研究背景;;;;;;;;Nutch搜索引擎;增量式爬取策略;Bloom过滤器;连接池与线程池;;整体结构:主从式结构
控制节点负责调度,分发任务
爬行节点负责爬行网页,反馈
优点:
实现简单,利于管理
相对通信量较少
添加节点简单
通信方式:基于TCP/IP的Socket通信
优点:可靠的传输连接;主要是四种与URL相关的数据结构
RawData,InterfaceURL,PackagedURL,ErrorURL
组织URL队列:PackagedURL;报文设计;控制节点崩溃:
控制节点、爬虫节点都要保存日志,系统恢复正常时,存储日志能够提供已爬取和未爬取URL的信息
爬虫节点崩溃:
若是由于控制节点或整个系统的崩溃,爬虫节点将未爬取的URL本地完整保存
若是由于节点爬虫崩溃,爬虫节点应将未爬取的URL回送给控制节点;;以爬虫节点向中心节点发送爬取到的URL的任务为例:
IsoMessage message_return = new IsoMessage(0x510,fields_return,message_temp.getPackagedURL());;FinishConfirm:中心节点收到爬虫节点发过来的完成任务的URL信息时,除了从待确认URL列表中将该部分URL删除,还要返回给爬虫节点一个确认信息,供爬虫节点操作。
Inquiry:中心节点需要随时了解爬虫节点的运行状态,采用轮询检测爬虫节点是否出现故障。
ProcessErrorURL:将ErrorURL依次在所有没有被爬取过的爬虫节点上进行爬取,如果都没有爬取到结果,就说明是这个URL有问题,将其丢弃。当中,要使用Thread.sleep(time)控制频率。;;网络环境:南京大学校园网(平均带宽约为2M)
编码软件:Eclipse
数据库:MySQL
项目数据:苏州贷后风险平台项目数据(2000个数据源);同时运行一个中央节点和一个爬虫节点,观察并记录运行状态
同时运行一个中央节点和两个爬虫节点,观察并记录运行状态
同时运行一个中央节点和六个爬虫节点,观察并记录运行状态
同时运行一个中央节点和十二个爬虫节点,观察并记录运行状态;;;;总结:
该分布式网络爬虫运行时间与爬虫数量近似成正比关系,这说明各爬虫节点充分发挥其网络带宽,达到相对较高的爬行速度。
爬虫爬取的效率没有随着爬虫节点的增加而降低,这体现了中央节点在爬行过程中的调控没有给爬虫节点带来过多的负担。
???分布式网络爬虫取得了预期想要的效果。
展望:
折线图略有曲折,可能是由于网络的稳定性、出错URL的处理时间、爬取网站的速度不一等多种情况综合产生。
当爬虫数量达到一定个数时,爬行的效率也会遇到瓶颈,无法继续正比增长
;THANKS
文档评论(0)