基于Hadoop分布式主题网络爬虫研究.docVIP

下载本文档

6
0
约3.51千字
约 7页
2018-08-28 发布于福建
举报
版权申诉

基于Hadoop分布式主题网络爬虫研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Hadoop分布式主题网络爬虫研究

基于Hadoop分布式主题网络爬虫研究　　摘要：主题网络爬虫采用集中式体系结构，具有对单台服务器性能要求高、可扩展性差等缺点。提出了一种基于Hadoop的分布式主题网络爬虫架构，通过将主题网络爬虫部署在分布式集群中的不同机器，运用MapReduce编程模型对数据进行抓取分析，使不同机器共同完成对指定任务的抓取工作。实验证明，采用分布式架构，通过动态调节分布式集群中的节点个数，能够明显改善主题网络爬虫的抓取效果。　　关键词：Hadoop；MapReduce；分布式架构；主题网络爬虫　　中图分类号：TP301.6 文献标识码：A 文章编号：1672-7800（2016）003-0024-03 　　作者简介：李应（1989-），男，陕西礼泉人，西安工程大学计算机科学学院硕士研究生，研究方向为大数据、分布式系统、智能搜索、自然语言处理。　　0 引言　　互联网资源正在以指数级快速增长，如何能够快速获取网络资源已经成为广大用户的一项基本需求。通用网络爬虫由于是对互联网全网资源的获取，因此其获取的资源范围涉及各个领域，这对于想要获得某个专业领域资源的用户带来不便。主题网络爬虫的出现使获取的网络资源具有更强的针对性，在一定程度上解决了用户的专业性需求，用户能够快速、准确地得到想要的资源。　　对于拥有庞大数据量的网络资源，采用集中式服务体系结构有许多不可避免的缺点，如对于单台服务器性能要求高、数据的可维护性与可扩展性差等。分布式体系结构能够明显改善集中式体系结构中的问题，具有可扩展性强、成本低、数据不易丢失等众多优点。　　本文利用分布式体系结构的优点，将主题网络爬虫与Hadoop分布式开源框架相结合，提出了一种基于Hadoop的分布式主题网络爬虫架构。　　1 相关概念介绍　　1.1 Hadoop分布式文件系统（HDFS）　　HDFS[1-2]是Hadoop的核心组件之一，是一个可扩展的分布式文件系统。HDFS可以运行在廉价的普通计算机上，具有良好的容错能力，并且能够提供更高性能的服务。Hadoop的HDFS对普通用户来说是透明的，用户可以像操作个人计算机一样在HDFS上添加、删除数据等。在HDFS中有3个重要角色：NameNode、DataNode以及Client。其中，NameNode用来存储文件的元数据信息，包括文件名、文件所有者、文件权限等；DataNode是真正用来存放用户数据的位置，所有数据都保存在DataNode上，并用冗余机制来保证数据的安全性。图1给出了HDFS的读写数据流程。　　1.2 Hadoop分布式计算框架（MapReduce）　　MapReduce[3-4]是一种分布式编程模型，整个MapReduce采用“分而治之”的思想。MapReduce首先将大规模数据任务进行分割，其次将分割后的子任务交给不同的节点完成，待各个子节点完成相应的子任务分析或者计算后，将各个子节点的处理结果进行汇总，得到最终结果。在Hadoop的MapReduce编程模型中，包含JobTracker和TaskTracker两个重要角色。JobTracker用来进行任务分解，分解的子任务交给每个Tasktracker去完成。Hadoop中每一个MapReuce任务都要处理成一个Job，在该Job中分为Map和Reduce两个阶段，Map阶段负责各个子任务的分析处理，Reduce用来将子任务的处理结果进行合并。图2给出了MapReduce的处理流程。　　1.3 主题网络爬虫　　主题网络爬虫[5-6]的爬取流程与通用爬虫流程大体相似，主要区别在于主题网络爬虫抓取的网页都与某个主题领域有关，在网络爬虫抓取过程中，只有与设定主题相关的网页才会被抓取。主题网络爬虫的分析算法要去除与主题无关的网页，将与主题相关的链接加入待抓取URL队列中，然后根据选取的搜索策略从待抓取队列中选择要抓取的网页，一直重复该过程，直到满足爬虫停止条件为止。图3给出了主题网络爬虫的抓取流程。　　2 分布式主题网络爬虫设计与实现　　2.1 基于Hadoop的分布式主题网络爬虫总体架构　　爬虫总体架构主要由爬虫主控节点、多个爬虫子节点以及分布式文件系统（HDFS）组成，这3部分是一个有机整体，相互联系，共同完成数据的抓取和存储任务。图4给出了分布式网络爬虫的总体架构。爬虫主控节点：该节点是整个架构的核心，主要用来管理子网络爬虫的启动、URL资源任务的调度、负载均衡、判断是否终止抓取等功能。主控节点通过和各爬虫子节点不断进行通信，随时调节其抓取任务负载，使每个子网络爬虫都能充分抓取稳定的网络资源。　　多个爬虫子节点：这些节点是真正用来完成数据抓取任务的节点。多个爬虫子节点按照主控节点给其分配的URL资源，按照主题网络