基于hadoop子项目——Hive云计算性能测试.docVIP

下载本文档

0
0
约4.04千字
约 8页
2017-11-07 发布于福建
举报
版权申诉

基于hadoop子项目——Hive云计算性能测试.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于hadoop子项目——Hive云计算性能测试

基于hadoop子项目——Hive云计算性能测试　　摘要：针对信息化时代海量数据的问题，神秘大象——hadoop的出现给云计算领域带来了新的浪潮。针对hadoop框架，采用基于Hadoop的子项目Hive对其性能进行测试，并总结了决定MapReduce分布式计算性能的因素。关键词：Hadoop；MapReduce；Hive；分布式；云计算；性能测试中图分类号：TP302.7 文献标识码：A 文章编号2012）011001403 ________________________________________ 基金项目：中南民族大学中央高校基本科研业务费专项资金项目（CZY11007）作者简介：沙恒（1991-），男，中南民族大学计算机科学学院学生，研究方向为Java语言、分布式系统；帖军（1976-），男，中南民族大学计算机科学学院副教授、硕士研究生导师，研究方向为移动计算、分布式系统。0 引言这是一个信息爆炸的时代，互联网上的信息正在以几何级数的速度增长。IDC的一项预测曾指出，“数字宇宙”（digital universe）项目统计得出2006年的数据总量为0.18ZB，而2011年的数据量已达到1.8ZB，（1ZB=10亿TB）。这相当于世界上每人一个磁盘驱动器所能容纳数据的数量级。在这个大背景下，消耗CPU最多的计算逐渐从“提升软件本身性能”方面转移到信息处理方面。与此同时，摩尔定律似乎也不再像以前那样准确发挥作用了。在这样的严峻形势下，各大厂商面临着极大的挑战，他们需要从TB乃至PB级的数据中挖掘信息，并对这些海量的数据进行快捷、高效的处理。在这时期，Google公司以MapReduce为基石，结合GFS、BigTable逐步发展成为全球互联网的领头羊。然而，Google并未公开其MapReduce细节。正在这时，神秘大象——hadoop出现了，它的开源给人们带来了希望。 1 Hadoop简介 Hadoop是一个开源的框架，可编写和运行分布式应用处理大规模数据。它是Apache Lucene创始人Doug Cutting创建的，起源于Apache Nutch，一个开源的网络搜索引擎。Hadoop分布式集群优势在于以下几点：（1）可运行在一般商用硬件上，成本低廉，配置方便。（2）Haoop致力于一般商用硬件上，其硬件难免出现故障，它可从容地处理大部分此类故障，具有良好的健壮性。（3）Hadoop通过增加集群节点，可线性地扩展以处理更大的数据集，有良好的可扩展性。（4）Hadoop编程简单，可以使用户高效地写出并行代码。 Hadoop原理如图1所示。 ________________________________________ 图1 Hadoop架构原理采用Master/Slave结构。NameNode维护内部元数据，DataNode存储数据，负责处理数据的读写请求，并定期向NamenNde上报心跳，NameNode通过响应心跳来控制DataNode。 MapReduce是大规模数据处理的利器，Map和Reduce是它的主要思想，Map负责将数据打散，Reduce负责将数据进行聚集。MapReduce的实现也采用Master/Slave的主从结构，Master叫做JobTracker，Slave叫做TaskTracker。用户提交的计算叫做Job，每一个Job会被划分成若干个Tasks。JobTracker负责Job和Tasks的调度，而jobTracker负责执行Tasks。 2 Hadoop分布式集群配置硬件：浪潮NF5220、16CPU、13GB内存。操作系统：LinuxCentOS6.1，并使用系统自带的KVM虚拟机进行其它节点的虚拟。实验模型：本次实验首先分布了4个集群节点：1个主节点和3个从节点，其中，Master在原CentOS上配置，其余3个Slave从节点配置在KVM虚拟机上，为每个Slave节点分配了同样的配置：4CPU、1GB内存、100GB HDFS。本次实验的目的在于测试基于Hive的MapReduce分布式计算性能。 MapReduce较HPC的优势在于数据本地化，即计算数据在本地。HPC海量数据计算适用于密集型计算，它的瓶颈在于网络带宽，而Hadoop的MapReduce改善了这一点：Hadoop首先将海量数据负载均衡地分布在每一个计算节点上的HDFS。在Map阶段，任务的执行节点和输入数据的存储节点为同一节点，减少了网络带宽的依赖，提高了其计算性能。在Map阶段，将输入数据分