基于hadoop平台的海量数据处理应用硕士论文.doc

下载文档 降价啦

19
0
约4.46万字
约 68页
2019-05-21 发布于河南
举报
版权申诉
保障服务

基于hadoop平台的海量数据处理应用硕士论文.doc

1、本文档共68页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

PAGE 46 LDEE-DGA：基于双目标遗传算法的低延迟能量有效WSN路由协议研究孙宏宇吉林大学吉林大学硕士学位论文基于Hadoop平台的海量数据处理应用 Massive Data Processing Application Based on Hadoop 基于Hadoop平台的海量数据处理应用 Massive Data Processing Application Based on Hadoop 作者姓名：专业名称：软件工程指导教师：学位类别：工程硕士答辩日期：摘要 PAGE \* MERGEFORMATIII 摘要基于Hadoop平台的海量数据处理应用面对互联网数据爆炸式的增长，传统单机处理方式已经慢慢落伍，新式的分布式并行处理日益成熟，将替代原有的处理方式。时下有关数据的海量处理和存储成为研究的热潮。在这其中，由Dong Cutting等人开发的Hadoop平台脱颖而出，成为分布式处理的宠儿。 Hadoop基础分布式架构主要由HDFS分布式文件系统和MapReduce计算模型组成。HDFS主要负责海量数据的存储，而MapReduce主要负责在海量数据上的计算。传统的日志处理一般都采用单机式的shell脚本处理，在面对今天海量数据处理中有些力不从心。而随着互联网社交网络的发展，社交人际关系的处理也成为当今互联网研究的热点。本文针对社交网络的海量日志处理，由传统shell处理方式，转向的Hadoop平台下的MapReduce处理方式。提供更加快速的处理速度，更方便、快捷和人性化的处理界面，以及更加细致分析功能。并在此基础上，应用和改进单源最短路径Dijkstra算法，将其分布式化，利用它分析社交网络中的人际关系。在实验部分，通过搭建1个4台机器小集群，对比shell脚本处理，验证了hadoop在海量日志处理方面的优势。同时利用分布式Dijkstra算法，分析了陌生人之间的人际关系。最后本文还针对Hadoop平台运行作业提出了一些配置参数优化方式，这些参数都是通过对Hadoop源码的分析以及在大量作业运行的基础上分析获得的。关键词： Hadoop，MapReduce，海量日志处理，分布式Dijkstra算法 ABSTRACT Abstract Massive Data Processing Application Based on Hadoop Faced with explosive growth of Internet data, the traditional stand-alone approach has been slowly falling behind, and the new form distributed parallel processing has become more sophisticated which will replace the original approach. Nowadays, processing and storage of massive data has become a hot research. Hadoop platform developed by Dong Cutting and others stands out and become an most important research direction of distributed processing. Hadoop basis distributed architecture is composed of HDFS distributed file system and MapReduce computation model. The HDFS is primarily responsible for the storage of massive data, and MapReduce is mainly responsible for the calculation of the massive data. The traditional log processing generally uses stand-alone shell script processing, when faceing the massive data processing, this method looks bloated. With the development of the Internet social networking, social-interpersonal treatment has also become a hot top