- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于hadoop子项目——Hive云计算性能测试
基于hadoop子项目——Hive云计算性能测试
摘 要:针对信息化时代海量数据的问题,神秘大象——hadoop的出现给云计算领域带来了新的浪潮。针对hadoop框架,采用基于Hadoop的子项目Hive对其性能进行测试,并总结了决定MapReduce分布式计算性能的因素。
关键词:Hadoop;MapReduce;Hive;分布式;云计算;性能测试
中图分类号:TP302.7 文献标识码:A 文章编号2012)011001403
________________________________________
基金项目:中南民族大学中央高校基本科研业务费专项资金项目(CZY11007)
作者简介:沙恒(1991-),男,中南民族大学计算机科学学院学生,研究方向为Java语言、分布式系统;帖军(1976-),男,中南民族大学计算机科学学院副教授、硕士研究生导师,研究方向为移动计算、分布式系统。0 引言
这是一个信息爆炸的时代,互联网上的信息正在以几何级数的速度增长。IDC的一项预测曾指出,“数字宇宙”(digital universe)项目统计得出2006年的数据总量为0.18ZB,而2011年的数据量已达到1.8ZB,(1ZB=10亿TB)。这相当于世界上每人一个磁盘驱动器所能容纳数据的数量级。
在这个大背景下,消耗CPU最多的计算逐渐从“提升软件本身性能”方面转移到信息处理方面。与此同时,摩尔定律似乎也不再像以前那样准确发挥作用了。在这样的严峻形势下,各大厂商面临着极大的挑战,他们需要从TB乃至PB级的数据中挖掘信息,并对这些海量的数据进行快捷、高效的处理。在这时期,Google公司以MapReduce为基石,结合GFS、BigTable逐步发展成为全球互联网的领头羊。然而,Google并未公开其MapReduce细节。正在这时,神秘大象——hadoop出现了,它的开源给人们带来了希望。
1 Hadoop简介
Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据。它是Apache Lucene创始人Doug Cutting创建的,起源于Apache Nutch,一个开源的网络搜索引擎。Hadoop分布式集群优势在于以下几点:
(1)可运行在一般商用硬件上,成本低廉,配置方便。
(2)Haoop致力于一般商用硬件上,其硬件难免出现故障,它可从容地处理大部分此类故障,具有良好的健壮性。
(3)Hadoop通过增加集群节点,可线性地扩展以处理更大的数据集,有良好的可扩展性。
(4)Hadoop编程简单,可以使用户高效地写出并行代码。
Hadoop原理如图1所示。
________________________________________
图1 Hadoop架构原理
采用Master/Slave结构。NameNode维护内部元数据,DataNode存储数据,负责处理数据的读写请求,并定期向NamenNde上报心跳,NameNode通过响应心跳来控制DataNode。
MapReduce是大规模数据处理的利器,Map和Reduce是它的主要思想,Map负责将数据打散,Reduce负责将数据进行聚集。MapReduce的实现也采用Master/Slave的主从结构,Master叫做JobTracker,Slave叫做TaskTracker。用户提交的计算叫做Job,每一个Job会被划分成若干个Tasks。JobTracker负责Job和Tasks的调度,而jobTracker负责执行Tasks。
2 Hadoop分布式集群配置
硬件:浪潮NF5220、16CPU、13GB内存。
操作系统:LinuxCentOS6.1,并使用系统自带的KVM虚拟机进行其它节点的虚拟。
实验模型:本次实验首先分布了4个集群节点:1个主节点和3个从节点,其中,Master在原CentOS上配置,其余3个Slave从节点配置在KVM虚拟机上,为每个Slave节点分配了同样的配置:4CPU、1GB内存、100GB HDFS。
本次实验的目的在于测试基于Hive的MapReduce分布式计算性能。
MapReduce较HPC的优势在于数据本地化,即计算数据在本地。HPC海量数据计算适用于密集型计算,它的瓶颈在于网络带宽,而Hadoop的MapReduce改善了这一点:Hadoop首先将海量数据负载均衡地分布在每一个计算节点上的HDFS。在Map阶段,任务的执行节点和输入数据的存储节点为同一节点,减少了网络带宽的依赖,提高了其计算性能。
在Map阶段,将输入数据分
您可能关注的文档
最近下载
- 第12课 从明朝建立到清军入关【课件】.pptx VIP
- 初中物理《机械效率》实验探究专题练习.doc VIP
- 初中物理实验机械效率.ppt VIP
- 第12课 从明朝建立到清军入关优秀教学课件(28页).pptx VIP
- RS Components 电工电料 安全继电器 XPSAV11113 使用说明.pdf VIP
- 2024年自考05722公共经济学高频考点重点汇编.pdf VIP
- 奶茶店兼职劳务合同模板(3篇).docx
- OTIS奥的斯XIOTIS西子奥的斯标准ACD4MR电气原理图XAA21310AT注解版.pdf
- 健康体重课件小学生版最新完整版本.pptx VIP
- 内分泌性高血压筛查专家共识(2025版).pdf VIP
文档评论(0)