基于多核CPU的任务级数据处理研究及其在集群平台下的性能测试-软件工程专业论文.docxVIP

下载本文档

3
0
约5.07万字
约 59页
2019-02-20 发布于上海
举报
版权申诉

基于多核CPU的任务级数据处理研究及其在集群平台下的性能测试-软件工程专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

重庆大学硕士学位论文中文摘要重庆大学硕士学位论文中文摘要 I I 摘要随着计算机网络和信息化技术的发展，人们每天要处理的信息正在以惊人的速度增加，尤其是像 Google 这样的提供全球网页分析和处理的互联网公司，它每天要通过 Google MapReduce 对数以 P 级的网页，音频和视频进行处理。Google 在数据处理方面的成功促使 Apache 社区开发了开源版的 Hadoop MapReduce。开源版本用 Java 语言实现，它用 HDFS 将集群的主要实体 NameNode, SecondName- Node 和 DataNode 连接起来，NameNode 是集群的管理者，它上面运行 JobTracker 主控程序; SecondNameNode 是 NameNode 的 backup 服务器；DataNode 是 hadoop 集群中用 TaskTracker 真正处理数据的计算机，当 DataNode 是多核计算机，且分配的数据量小于是 64M 时，DataNode 的多核优势将不复存在，它只能利用其中一个核心的计算机，其它核心则处 idle 状态。为了处理这种状况，本文提出了一种任务级 MapReduce 模型，用它来代替传统的线程级 MapReduce。本文在分析了 Hadoop 运行机制以及制约因素的基础上，搭建了 Hadoop 集群运算平台，并对集群容易出现的故障给出了相应的解决方案。详细分析了线程级 MapReduce 的运作机制，然后在集群上通过对比实验提出了线程级 MapReduce 在处理小块数据时的局限性。本文将 intel 用 c++语言开发的 TBB 并行库与 Hadoop MapReduce 结合起来形成了任务级的 MapReduce，并通过在集群上求 PI 的几组实验，证实了任务级 MapReduce 在小块数据处理方面的优势。本文还通过实验的方式综合对比了这两种级别的 MapReduce 的性能，并提出了核心总数，数据规模与性能之间的关系。关键词：多核，集群，MapReduce，Hadoop，TBB 重庆大学硕士学位论文英文摘要重庆大学硕士学位论文英文摘要 II II ABSTRACT With the development of computer networks and information technology, people have to deal with increasing information growing at an alarming rate every day, especially companies like Google who provides global analysis and processing of Internet pages and it uses Google MapReduce to process P-class of web pages, audio and video files. The success of Google’s large-scale data processing promotes the development of open-source version, Hadoop MapReduce, made by the Apache community. The open-source version of MapReduce is developed using Java language. It has three components: NameNode, SecondNameNode and DataNode. NameNode is manager of the cluster with a management process JobTracker running on it.SecondNamenode is a backup server of NameNode.DataNode are a cluster of computers which do the real processing work using TaskTracker.The three components above are connected using HDFS distributed file system.When DataNode is a multicore computer and its data given are samller than 64M, the advantage of DataNode with multi-core will c