参数优化的Hadoop 云计算平台.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE 1 PAGE 1 参数优化的Hadoop 云计算平台 传统的数据分析,很难满意现阶段大数据处理效率的要求。Hadoop云计算技术的应用,实现了海量数据存储和分析,提高了数据存储和分析的效率。在总结传统系统利弊的基础上,以Hadoop分布式文件系统(HDFS)取代现有的单机数据存储,以map/reduce应用程序取代传统的单机数据分析,并对其做出优化。试验证明,Hadoop系统架构在生产上部署、投入使用的可行性。 云计算在大数据处理方面,尤其针对几百MB、几百GB、甚至几百TB大小的文件,有了很好的应用,目前已经有存储PB级数据的Hadoop集群了。Google关于GFS、MapReduce、BigTable的三篇论文是云计算领域的经典。Apache根据这三篇论文,用Java实现了开源的云计算Hadoop系统,性能上Hadoop不比Google优良,却也不影响Hadoop被业界广泛接受。  1.Hadoop系统介绍   Hadoop由两个核心构件组成,Hadoop分布式文件系统HDFS(HadoopDistributedFileSystem)和map/reduce计算模型。 表1Apache与Google云计算产品性能比较   HDFS保留了传统文件系统特征的同时,也有海量数据存储、高性价比、牢靠性、可扩展性等云计算领域的特征。HDFS集群是由一个名字节点(NameNode)和多个数据节点(DataNode)构成。一个大数据文件被分成多个块,这些块存储在DataNode中,由NameNode确定每个块与DataNode的映射,并且命令DataNode进行文件或目录操作,如open、read、write、close等。NameNode的容错很重要,NameNode停机会造成HDFS数据的丢失,安全起见Hadoop会有NameNode的备份,一旦NameNode停机或异常,SecondaryNameNode便会接管NameNode的工作,用户却不简单觉察到明显的中断。map/reduce计算模型由一个调度协调任务的JobTracker和多个执行来自JobTracker指令的TaskTracker组成。map/reduce程序提交给JobTracker后,JobTracker获取当前网络拓扑中最优的数个节点,将map和reduce任务交付给所选节点的TaskTracker。任务执行过程中,通过心跳机制,TaskTracker向JobTracker报告任务进度,通过更改heartbeat.recheck.interval属性可以设置心跳的时间。当TaskTracker不能完成任务或任务失败的时候,JobTracker会选取效率高的TaskTracker的结果,或者将任务重新下发给其他节点的TaskTracker。 图1,map/reduce计算模型供应了任务的分解(map)和规约(reduce)来进行分布式计算。map函数对文件的每一行进行处理,产生(Key/Value)对。reduce以map的输出为输入,将相同的Key值规约至同一reduce,reduce进一步处理后,产生新的数据集。形式化过程如下: map:(k1,v1)→(k2,v2)→(k2,list(v2)) reduce:(k2,list(v2))→(k3,v3) map将(k1,v1)经过处理,产生数据集(k2,v2),归纳为(k2,list(v2));将(k2,list(v2))交予reduce处理,(k2,list(v2))成为reduce函数的输入,产生map/reduce计算的结果(k3,v3)。 图1map/reduce计算模型  2.云计算技术   数据存储和分析效率,是推断服务优劣程度的重要指标。多年来,IT界内存容量和磁盘容量大幅增加,然而数据存储和数据分析的效率却未能满意企业的要求。将云计算产品Hadoop应用于数据的存储、分析,能提高数据存储和分析的效率。传统的数据存储、分析,将一张表存储在一台机器上,一条SELECT语句被一台机器执行,影响效率的关键因素是单机的性能。HDFS将一个大文件分块存储在集群的各个节点上,完成数据存储的分解;map/reduce将一个数据分析任务下发到各个节点上,完成任务的分解。各个节点并行的进行数据存储和分析,最终通过归约各个节点的结果完成任务。Hadoop系统强大的数据处理能力,鲜亮的云计算的特征,已经被业界广泛的接受,并被应用于生产。   2.1HDFS的数据存储   数据文件有效记录1221215条,大小为457MB,每一行是数据库的一条记录,将数据备份至HDF

文档评论(0)

187****2259 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档