- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Hadoop分布式主题网络爬虫研究
基于Hadoop分布式主题网络爬虫研究
摘 要:主题网络爬虫采用集中式体系结构,具有对单台服务器性能要求高、可扩展性差等缺点。提出了一种基于Hadoop的分布式主题网络爬虫架构,通过将主题网络爬虫部署在分布式集群中的不同机器,运用MapReduce编程模型对数据进行抓取分析,使不同机器共同完成对指定任务的抓取工作。实验证明,采用分布式架构,通过动态调节分布式集群中的节点个数,能够明显改善主题网络爬虫的抓取效果。
关键词:Hadoop;MapReduce;分布式架构;主题网络爬虫
中图分类号:TP301.6 文献标识码:A 文章编号:1672-7800(2016)003-0024-03
作者简介:李应(1989-),男,陕西礼泉人,西安工程大学计算机科学学院硕士研究生,研究方向为大数据、分布式系统、智能搜索、自然语言处理。
0 引言
互联网资源正在以指数级快速增长,如何能够快速获取网络资源已经成为广大用户的一项基本需求。通用网络爬虫由于是对互联网全网资源的获取,因此其获取的资源范围涉及各个领域,这对于想要获得某个专业领域资源的用户带来不便。主题网络爬虫的出现使获取的网络资源具有更强的针对性,在一定程度上解决了用户的专业性需求,用户能够快速、准确地得到想要的资源。
对于拥有庞大数据量的网络资源,采用集中式服务体系结构有许多不可避免的缺点,如对于单台服务器性能要求高、数据的可维护性与可扩展性差等。分布式体系结构能够明显改善集中式体系结构中的问题,具有可扩展性强、成本低、数据不易丢失等众多优点。
本文利用分布式体系结构的优点,将主题网络爬虫与Hadoop分布式开源框架相结合,提出了一种基于Hadoop的分布式主题网络爬虫架构。
1 相关概念介绍
1.1 Hadoop分布式文件系统(HDFS)
HDFS[1-2]是Hadoop的核心组件之一,是一个可扩展的分布式文件系统。HDFS可以运行在廉价的普通计算机上,具有良好的容错能力,并且能够提供更高性能的服务。Hadoop的HDFS对普通用户来说是透明的,用户可以像操作个人计算机一样在HDFS上添加、删除数据等。在HDFS中有3个重要角色:NameNode、DataNode以及Client。其中,NameNode用来存储文件的元数据信息,包括文件名、文件所有者、文件权限等;DataNode是真正用来存放用户数据的位置,所有数据都保存在DataNode上,并用冗余机制来保证数据的安全性。图1给出了HDFS的读写数据流程。
1.2 Hadoop分布式计算框架(MapReduce)
MapReduce[3-4]是一种分布式编程模型,整个MapReduce采用“分而治之”的思想。MapReduce首先将大规模数据任务进行分割,其次将分割后的子任务交给不同的节点完成,待各个子节点完成相应的子任务分析或者计算后,将各个子节点的处理结果进行汇总,得到最终结果。在Hadoop的MapReduce编程模型中,包含JobTracker和TaskTracker两个重要角色。JobTracker用来进行任务分解,分解的子任务交给每个Tasktracker去完成。Hadoop中每一个MapReuce任务都要处理成一个Job,在该Job中分为Map和Reduce两个阶段,Map阶段负责各个子任务的分析处理,Reduce用来将子任务的处理结果进行合并。图2给出了MapReduce的处理流程。
1.3 主题网络爬虫
主题网络爬虫[5-6]的爬取流程与通用爬虫流程大体相似,主要区别在于主题网络爬虫抓取的网页都与某个主题领域有关,在网络爬虫抓取过程中,只有与设定主题相关的网页才会被抓取。主题网络爬虫的分析算法要去除与主题无关的网页,将与主题相关的链接加入待抓取URL队列中,然后根据选取的搜索策略从待抓取队列中选择要抓取的网页,一直重复该过程,直到满足爬虫停止条件为止。图3给出了主题网络爬虫的抓取流程。
2 分布式主题网络爬虫设计与实现
2.1 基于Hadoop的分布式主题网络爬虫总体架构
爬虫总体架构主要由爬虫主控节点、多个爬虫子节点以及分布式文件系统(HDFS)组成,这3部分是一个有机整体,相互联系,共同完成数据的抓取和存储任务。图4给出了分布式网络爬虫的总体架构。爬虫主控节点:该节点是整个架构的核心,主要用来管理子网络爬虫的启动、URL资源任务的调度、负载均衡、判断是否终止抓取等功能。主控节点通过和各爬虫子节点不断进行通信,随时调节其抓取任务负载,使每个子网络爬虫都能充分抓取稳定的网络资源。
多个爬虫子节点:这些节点是真正用来完成数据抓取任务的节点。多个爬虫子节点按照主控节点给其分配的URL资源,按照主题网络
您可能关注的文档
最近下载
- 参考学习资料 建筑环境 贵州省建设工程造价信息2022年第02期.pdf VIP
- 2025年浙江省大学英语三级考试真题 .pdf VIP
- 小学教育专业职业生涯规划书.pptx
- 市政工程单位分部分项工程划分方案11.doc VIP
- 遗传学英文课件:11 群体遗传学英文课件.ppt VIP
- 质量保证措施通用版.docx VIP
- 第四单元《光现象》单元检测题八年级物理上册(人教版2024)(解析版).docx VIP
- 简谱D 想着我Think of Me简谱歌剧魅影.pdf VIP
- (高清版)B-T 40788-2021 船舶与海上技术 海上风能 港口与海上作业.pdf VIP
- 自动化专业职业生涯人物访谈报告.docx VIP
原创力文档


文档评论(0)