基于Hadoop海量数据处理关键技术研究-电子与通信工程专业论文.docxVIP

下载本文档

8
0
约5.77万字
约 73页
2019-02-13 发布于上海
举报
版权申诉

基于Hadoop海量数据处理关键技术研究-电子与通信工程专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Hadoop海量数据处理关键技术研究-电子与通信工程专业论文

万方数据万方数据 KEY TECHNOLOGY RESEARCH-BASED THE HADOOP OF MASSIVE DATA PROCESSING A Master Thesis Submitted to University of Electronic Science and Technology of China Major: Electronics and Communication Engineering Author: Che Bin Advisor: Yang Xiaolong School : School of Communication and Information Engineering 独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签名：日期：年月日关于论文使用授权的说明本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定，有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。（保密的学位论文在解密后应遵守此规定）签名：导师签名：日期：年月日摘要摘要互联网从诞生至今经历了接近半个世纪的时间，已深入到我们生活的方方面面。如今，在经历了 WEB2.0 时代之后，互联网正在向第三代——网络服务个性化。互联网的个性化演进过程中引发了数据的海量化，面对如此海量化的数据传统的单台超级服务器也逐渐显得力不从心，海量数据的处理逐渐成为一个棘手的难题。海量数据的产生与处理既是挑战也是机遇，海量数据为数据挖掘提供了丰富的数据源，从中挖掘出的信息更加具有商业价值。基于以上情况，今天，海量数据的处理已成为各大互联网公司投资研究的热门技术，中小企业也争相投入到这场数据盛宴中来。 2006 年 Google 所提出的云计算概念为海量数据处理的研究指明了方向， Apache 基金会所研发的开源 Hadoop 云平台的开源特性更是为广大研究者带来了低成本海量数据处理的曙光。传统的数据处理方法与技术在单台服务器情况下表现优越，但面对云平台的分布式处理模式已不再适应。将传统的数据处理方法进行分布式计算模式改造，并在此基础上进行算法改进与性能的提升对于在海量数据处理的研究将有重大的意义。本文首先从云计算理论出发，介绍了云计算的发展历程与技术体系，并对现有多款云计算平台做了分析与对比。之后选定 Hadoop 开源云平台作为项目的基础研究平台，对其进行深入的分析与讨论。接下来对现有数据处理技术进行讨论。文章第三、四部分是项目研究的核心内容，其主要内容为： 1）第三部分主要对海量 web 日志数据预处理模型进行研究。文章在总结传统经典预处理模型的基础上提出基于二次清洗模型与动态阈值算法的海量 Web 日志预处理模型，并对其做了详细描述。 2）第四部分内容为基于并行关联规则算法的海量数据挖掘研究，主要以 Apriori 算法的并行算法为切入点，分析传统 CD、DD 算法的优势及不足之处，并提出改进方案，完成改进型 Apriori 数据挖掘算法的描述。在文章的第五部分对三、四部分所提出的改进及优化做仿真实验，并根据实验结果进行分析，最后得出实验结论。关键词：云计算，Hadoop，数据处理，Apriori 算法 I ABSTRACT ABSTRACT Internet has experienced since its birth nearly half a century, has penetrated into every aspect of our lives. WEB2.0 era after the Internet is to the third generation - network service personalization. Lead to a sea of data quantify the personalized the evolution of the Internet, the face of such a sea quantifiable data of tradi