- 1、本文档共75页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分布式网络爬虫系统的设计与实现-软件工程专业论文
万方数据
万方数据
分类号 密级
UDC 注 1
学 位 论 文
分布式网络爬虫系统的设计与实现
(题名和副题名)
吕 阳
(作者姓名)
指导教师 龚海刚 副教授
电子科技大学
成
都
崔宏伟
高
工
济南旭景科技有限公司
济
南
(姓名、职称、单位名称) 申请学位级别 硕士 专业学位类别 工 程 硕 士 工程领域名称 软 件 工 程
提交论文日期 2013.9.25 论文答辩日期 2013.11.17 学位授予单位和日期 电子科技大学 2013 年 12 月 24 日 答辩委员会主席
评阅人
注 1:注明《国际十进分类法 UDC》的类号。
万方数据
万方数据
DISTRIBUTED WEB CRAWLER SYSTEM DESIGN AND IMPLEMENTATION
A Master Thesis Submitted to
University of Electronic Science and Technology of China
Major: Master of Engineering
Author: Lu Yang
Advisor: Gong Haigang
School : School of Information and Software Engineering
万方数据
万方数据
独创性声明
本人声明所呈交的学位论文是本人在导师指导下进行的研究工作 及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为 获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与 我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的 说明并表示谢意。
作者签名: 日期: 年 月 日
论文使用授权
本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘, 允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全 部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存、汇编学位论文。
(保密的学位论文在解密后应遵守此规定)
作者签名: 导师签名:
日期: 年 月 日
摘
摘 要
ABSTRACT
ABSTRACT
万方数据
万方数据
万方数据
万方数据
摘 要
进入 21 世纪,互联网取得了飞速的发展,其所包含的信息量正在以指数型趋 势高速增长,由此导致人们在这海量的信息中需要花费大量的精力来找寻自己需 要的信息,因此人们对于随时随地获取自身所需求信息的渴望越来越强烈。正是 基于这一情况,云计算获得了发展的契机。全球范围内包括 Google、IBM、Apache 和 Amazon 等大型公司在内,都对云计算投入了大量的人力、物力、财力。其中 Apache 站在用户的角度开发了 Hadoop 平台,是一个开源云计算框架。本文经过 研究后开发的分布式爬虫系统就是在此框架下设计并且实现的。
本文的目的主要是为了设计并实现一个基于 Hadoop 的分布式爬虫系统,通过 这个系统,实现对大规模数据采集的任务。同时,该爬虫系统采集信息类型非常 广泛,能够对全球多种语言的主流新闻网站进行信息采集。此系统采用分布式信 息采集模式。另外,多种语言信息并没有统一保存在一起,而是进行了独立保存, 这样能够为后面跨语言处理提供便利。
本文主要研究了以下几个部分:首先,对云计算相关知识进行具体的介绍; 其次,介绍了 Hadoop 分布式平台相关知识;再次,通过文献资料等方法调查了网 络爬虫原理发展现状。
上面的研究是本文的一个根本基础,正是在这个基础上,我们提出了基于 Hadoop 的分布式网络爬虫系统的设计方案。设计方案不仅包含了系统的设置流程, 而且详细介绍了本系统的基本框架。另外,还包括了系统功能模块的划分以及各 模块的 Map/Reduce 设计。为了进一步完善本系统,本文还对系统做出来更为具体 的设计,使得系统更加稳定可靠。最后,对本文进行了总结,提出了文章今后进 一步研究的方向。
总之,本文的主要意义在于设计并且实现基于 Hadoop 的分布式爬虫系统,该 系统不仅改变了以往爬虫系统效率低下的问题,而且使得系统的可扩展性得以提 高。另外,信息采集速度的规模也逐步得到了提高,如此一来为“分布式跨语言信 息获取和检索平台”的索引模块和信息处理模块提供有效数据。
关键词:分布式爬虫,Map/Reduce,HDFS,搜索引擎,云计算
I
ABSTRACT
The Internet industry has been maintaining a rapid growth since 2000, the quantity of inform
您可能关注的文档
- 典型船舶设备内部流场特性数值模拟计算-船舶与海洋工程专业论文.docx
- 典型蔬菜制品高效微波冷冻干燥的工艺与机理研究-食品科学专业论文.docx
- 典型药物分子的结构参数化矢量表征及其活性模型化定量预测-分析化学专业论文.docx
- 典型资源增殖区仿刺参饵料时空特征研究-增殖养殖工程专业论文.docx
- 典型褐煤热气流及微波干燥提质特性研究-热能工程专业论文.docx
- 典型赤潮藻絮凝及絮凝过程实验研究-动力工程专业论文.docx
- 典型赤潮藻类可培养藻际细菌的分子鉴定与藻菌关系研究-水生生物学专业论文.docx
- 典型过渡金属离子活化过硫酸盐氧化水中磺胺甲噁唑的研究-建筑与土木工程专业论文.docx
- 典型轻合金表面形貌与微结构对电子功函数的影响-材料工程专业论文.docx
- 典型通信信号调制识别技术研究-通信与信息系统专业论文.docx
文档评论(0)