分布式网络爬虫系统的设计与实现-软件工程专业论文.docx

下载文档 降价啦

7
0
约6.4万字
约 75页
2018-12-06 发布于上海
举报
版权申诉
保障服务

分布式网络爬虫系统的设计与实现-软件工程专业论文.docx

1、本文档共75页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

分布式网络爬虫系统的设计与实现-软件工程专业论文

万方数据万方数据分类号密级 UDC 注 1 学位论文分布式网络爬虫系统的设计与实现（题名和副题名）吕阳（作者姓名）指导教师龚海刚副教授电子科技大学成都崔宏伟高工济南旭景科技有限公司济南（姓名、职称、单位名称）申请学位级别硕士专业学位类别工程硕士工程领域名称软件工程提交论文日期 2013.9.25 论文答辩日期 2013.11.17 学位授予单位和日期电子科技大学 2013 年 12 月 24 日答辩委员会主席评阅人注 1：注明《国际十进分类法 UDC》的类号。万方数据万方数据 DISTRIBUTED WEB CRAWLER SYSTEM DESIGN AND IMPLEMENTATION A Master Thesis Submitted to University of Electronic Science and Technology of China Major: Master of Engineering Author: Lu Yang Advisor: Gong Haigang School : School of Information and Software Engineering 万方数据万方数据独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。作者签名：日期：年月日论文使用授权本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定，有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。（保密的学位论文在解密后应遵守此规定）作者签名：导师签名：日期：年月日摘摘要 ABSTRACT ABSTRACT 万方数据万方数据万方数据万方数据摘要进入 21 世纪，互联网取得了飞速的发展，其所包含的信息量正在以指数型趋势高速增长，由此导致人们在这海量的信息中需要花费大量的精力来找寻自己需要的信息，因此人们对于随时随地获取自身所需求信息的渴望越来越强烈。正是基于这一情况，云计算获得了发展的契机。全球范围内包括 Google、IBM、Apache 和 Amazon 等大型公司在内，都对云计算投入了大量的人力、物力、财力。其中 Apache 站在用户的角度开发了 Hadoop 平台，是一个开源云计算框架。本文经过研究后开发的分布式爬虫系统就是在此框架下设计并且实现的。本文的目的主要是为了设计并实现一个基于 Hadoop 的分布式爬虫系统，通过这个系统，实现对大规模数据采集的任务。同时，该爬虫系统采集信息类型非常广泛，能够对全球多种语言的主流新闻网站进行信息采集。此系统采用分布式信息采集模式。另外，多种语言信息并没有统一保存在一起，而是进行了独立保存，这样能够为后面跨语言处理提供便利。本文主要研究了以下几个部分：首先，对云计算相关知识进行具体的介绍；其次，介绍了 Hadoop 分布式平台相关知识；再次，通过文献资料等方法调查了网络爬虫原理发展现状。上面的研究是本文的一个根本基础，正是在这个基础上，我们提出了基于 Hadoop 的分布式网络爬虫系统的设计方案。设计方案不仅包含了系统的设置流程，而且详细介绍了本系统的基本框架。另外，还包括了系统功能模块的划分以及各模块的 Map/Reduce 设计。为了进一步完善本系统，本文还对系统做出来更为具体的设计，使得系统更加稳定可靠。最后，对本文进行了总结，提出了文章今后进一步研究的方向。总之，本文的主要意义在于设计并且实现基于 Hadoop 的分布式爬虫系统，该系统不仅改变了以往爬虫系统效率低下的问题，而且使得系统的可扩展性得以提高。另外，信息采集速度的规模也逐步得到了提高，如此一来为“分布式跨语言信息获取和检索平台”的索引模块和信息处理模块提供有效数据。关键词：分布式爬虫，Map/Reduce，HDFS，搜索引擎，云计算 I ABSTRACT The Internet industry has been maintaining a rapid growth since 2000, the quantity of inform