基于hadoop子项目——Hive云计算性能测试.docVIP

基于hadoop子项目——Hive云计算性能测试.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于hadoop子项目——Hive云计算性能测试

基于hadoop子项目——Hive云计算性能测试   摘 要:针对信息化时代海量数据的问题,神秘大象——hadoop的出现给云计算领域带来了新的浪潮。针对hadoop框架,采用基于Hadoop的子项目Hive对其性能进行测试,并总结了决定MapReduce分布式计算性能的因素。 关键词:Hadoop;MapReduce;Hive;分布式;云计算;性能测试 中图分类号:TP302.7 文献标识码:A 文章编号2012)011001403 ________________________________________ 基金项目:中南民族大学中央高校基本科研业务费专项资金项目(CZY11007) 作者简介:沙恒(1991-),男,中南民族大学计算机科学学院学生,研究方向为Java语言、分布式系统;帖军(1976-),男,中南民族大学计算机科学学院副教授、硕士研究生导师,研究方向为移动计算、分布式系统。0 引言 这是一个信息爆炸的时代,互联网上的信息正在以几何级数的速度增长。IDC的一项预测曾指出,“数字宇宙”(digital universe)项目统计得出2006年的数据总量为0.18ZB,而2011年的数据量已达到1.8ZB,(1ZB=10亿TB)。这相当于世界上每人一个磁盘驱动器所能容纳数据的数量级。 在这个大背景下,消耗CPU最多的计算逐渐从“提升软件本身性能”方面转移到信息处理方面。与此同时,摩尔定律似乎也不再像以前那样准确发挥作用了。在这样的严峻形势下,各大厂商面临着极大的挑战,他们需要从TB乃至PB级的数据中挖掘信息,并对这些海量的数据进行快捷、高效的处理。在这时期,Google公司以MapReduce为基石,结合GFS、BigTable逐步发展成为全球互联网的领头羊。然而,Google并未公开其MapReduce细节。正在这时,神秘大象——hadoop出现了,它的开源给人们带来了希望。 1 Hadoop简介 Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据。它是Apache Lucene创始人Doug Cutting创建的,起源于Apache Nutch,一个开源的网络搜索引擎。Hadoop分布式集群优势在于以下几点: (1)可运行在一般商用硬件上,成本低廉,配置方便。 (2)Haoop致力于一般商用硬件上,其硬件难免出现故障,它可从容地处理大部分此类故障,具有良好的健壮性。 (3)Hadoop通过增加集群节点,可线性地扩展以处理更大的数据集,有良好的可扩展性。 (4)Hadoop编程简单,可以使用户高效地写出并行代码。 Hadoop原理如图1所示。 ________________________________________ 图1 Hadoop架构原理 采用Master/Slave结构。NameNode维护内部元数据,DataNode存储数据,负责处理数据的读写请求,并定期向NamenNde上报心跳,NameNode通过响应心跳来控制DataNode。 MapReduce是大规模数据处理的利器,Map和Reduce是它的主要思想,Map负责将数据打散,Reduce负责将数据进行聚集。MapReduce的实现也采用Master/Slave的主从结构,Master叫做JobTracker,Slave叫做TaskTracker。用户提交的计算叫做Job,每一个Job会被划分成若干个Tasks。JobTracker负责Job和Tasks的调度,而jobTracker负责执行Tasks。 2 Hadoop分布式集群配置 硬件:浪潮NF5220、16CPU、13GB内存。 操作系统:LinuxCentOS6.1,并使用系统自带的KVM虚拟机进行其它节点的虚拟。 实验模型:本次实验首先分布了4个集群节点:1个主节点和3个从节点,其中,Master在原CentOS上配置,其余3个Slave从节点配置在KVM虚拟机上,为每个Slave节点分配了同样的配置:4CPU、1GB内存、100GB HDFS。 本次实验的目的在于测试基于Hive的MapReduce分布式计算性能。 MapReduce较HPC的优势在于数据本地化,即计算数据在本地。HPC海量数据计算适用于密集型计算,它的瓶颈在于网络带宽,而Hadoop的MapReduce改善了这一点:Hadoop首先将海量数据负载均衡地分布在每一个计算节点上的HDFS。在Map阶段,任务的执行节点和输入数据的存储节点为同一节点,减少了网络带宽的依赖,提高了其计算性能。 在Map阶段,将输入数据分

文档评论(0)

linsspace + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档