基于Hadoop分布式网络爬虫技术设计与实现.docVIP

下载本文档

61
0
约4.01千字
约 8页
2018-08-28 发布于福建
举报
版权申诉

基于Hadoop分布式网络爬虫技术设计与实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Hadoop分布式网络爬虫技术设计与实现

基于Hadoop分布式网络爬虫技术设计与实现　　摘要：随着互联网行业和信息技术的发展，Google、IBM和Apache等大型公司纷纷投入去发展云计算，其中 Apache 开发的 Hadoop 平台是一个对用户极为友好的开源云计算框架。该文就是要基于Hadoop框架去设计和实现分布式网络爬虫技术，以完成大规模数据的采集，其中采用 Map/Reduce 分布式计算框架和分布式文件系统，来解决单机爬虫效率低、可扩展性差等问题，提高网页数据爬取速度并扩大爬取的规模。　　关键词：云计算；分布式网络爬虫；Hadoop 　　中图分类号：TP393 文献标识码：A 文章编号：1009-3044（2015）08-0036-0c 　　Abstract： with the rapid development of the Internet industry and information technology， Google， IBM and Apache and other Large Firm are input to the development of cloud computing， in which Apache Hadoop development platform is a very friendly to users of open source cloud computing framework. This paper is based on the Hadoop framework to design and implementation of a distributed web crawler technology， to complete the large-scale data collection， in which the Map/Reduce distributed computing framework and distributed file system， to solve the single crawler low efficiency， poor scalability issues， improve the Webpage crawling speed and expand the scale of crawling. 　　Key words： cloud computing； distributed web crawler； Hadoop 　　1 绪论　　随着互联网快速的发展，web信息迅速增长，数据量大且种类多，需要把分散的计算机构建成一个系统整体，计算机之间分工协作，减少节点之间的分散，提高网络爬虫的性能。海量且冗杂的数据使得普通的数据库已经不能很好地完成存取，但是分布式文件系统为这样的数据存储提供了强大的支持。且随着互联网中处理海量数据的要求不断增高，云计算就应运而生，云计算框架也被运用于众多的IT行业中。因此，当下对基于Hadoop的分布式网络爬虫技术的研究也有着巨大的意义。　　2 相关理论与技术　　2.1 云计算　　云计算是一种共享的为网络提供信息交付的模式，将互联网中大量的计算机联合起来协同地提供计算、存储和软硬件等服务，为实现超级计算提供了支持。用户可以充分地利用网络联系集中的每一台电脑进行计算或存储。一般的云计算体系结构如图1所示：　　2.2 Hadoop 　　Hadoop 的框架结构主要是由分布式文件系统（HDFS）和Map/Reduce 计算模型两部分组成。其中，Map/Reduce 计算模型是编程模型，如图2所示是Hadoop的分布式平台框架。　　从图上可以看出，最底层是物理的计算机节点，这些节点通过HDFS联系整合到一起；Map/Reduce把任务分成若干子任务分配到不同的节点去实现分布式编程，而不必考虑各节点之间是如何共同协作完成的，这样就减轻了程序员的负担。　　3 系统分析与设计　　3.1 系统布局　　本系统是基于hadoop的分布式搜索引擎而设计的，爬虫技术是也是引擎中的一部分，系统可以分成搜索引擎和云计算平台，构架如图3所示：　　搜索引擎分为分布式网络爬虫、索引、检索以及界面展示等模块，前三个模块都用到了分布式计算框架来并处处理任务。分布式搜索引擎的功能模块如图4所示：　　该引擎的工作过程：首先，数据采集模块需要获取海量的数据作为数据源，就要根据URL链接在网络中不断地爬取网页文件，将这些获取的文件存储到HDFS文件系统中，并对这些文件进行解析有效数据。然后，利用分词技术对文件内容进行处理，再将得到的词串提供给索引模块并建立索引。当用户通过查询界面进行关键词查询时，依次进行查询器的初次处理、分词处理，之