参数优化的Hadoop 云计算平台.docxVIP

下载本文档

1
0
约7.7千字
约 12页
2021-12-06 发布于天津
举报
版权申诉

参数优化的Hadoop 云计算平台.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PAGE 1 PAGE 1 参数优化的Hadoop 云计算平台传统的数据分析，很难满意现阶段大数据处理效率的要求。Hadoop云计算技术的应用，实现了海量数据存储和分析，提高了数据存储和分析的效率。在总结传统系统利弊的基础上，以Hadoop分布式文件系统(HDFS)取代现有的单机数据存储，以map/reduce应用程序取代传统的单机数据分析，并对其做出优化。试验证明，Hadoop系统架构在生产上部署、投入使用的可行性。云计算在大数据处理方面，尤其针对几百MB、几百GB、甚至几百TB大小的文件，有了很好的应用，目前已经有存储PB级数据的Hadoop集群了。Google关于GFS、MapReduce、BigTable的三篇论文是云计算领域的经典。Apache根据这三篇论文，用Java实现了开源的云计算Hadoop系统，性能上Hadoop不比Google优良，却也不影响Hadoop被业界广泛接受。　1.Hadoop系统介绍　　Hadoop由两个核心构件组成，Hadoop分布式文件系统HDFS(HadoopDistributedFileSystem)和map/reduce计算模型。表1Apache与Google云计算产品性能比较　　HDFS保留了传统文件系统特征的同时，也有海量数据存储、高性价比、牢靠性、可扩展性等云计算领域的特征。HDFS集群是由一个名字节点(NameNode)和多个数据节点(DataNode)构成。一个大数据文件被分成多个块，这些块存储在DataNode中，由NameNode确定每个块与DataNode的映射，并且命令DataNode进行文件或目录操作，如open、read、write、close等。NameNode的容错很重要，NameNode停机会造成HDFS数据的丢失，安全起见Hadoop会有NameNode的备份，一旦NameNode停机或异常，SecondaryNameNode便会接管NameNode的工作，用户却不简单觉察到明显的中断。map/reduce计算模型由一个调度协调任务的JobTracker和多个执行来自JobTracker指令的TaskTracker组成。map/reduce程序提交给JobTracker后，JobTracker获取当前网络拓扑中最优的数个节点，将map和reduce任务交付给所选节点的TaskTracker。任务执行过程中，通过心跳机制，TaskTracker向JobTracker报告任务进度，通过更改heartbeat.recheck.interval属性可以设置心跳的时间。当TaskTracker不能完成任务或任务失败的时候，JobTracker会选取效率高的TaskTracker的结果，或者将任务重新下发给其他节点的TaskTracker。图1，map/reduce计算模型供应了任务的分解(map)和规约(reduce)来进行分布式计算。map函数对文件的每一行进行处理，产生(Key/Value)对。reduce以map的输出为输入，将相同的Key值规约至同一reduce，reduce进一步处理后，产生新的数据集。形式化过程如下： map:(k1，v1)→(k2，v2)→(k2，list(v2)) reduce:(k2，list(v2))→(k3，v3) map将(k1，v1)经过处理，产生数据集(k2，v2)，归纳为(k2，list(v2))；将(k2，list(v2))交予reduce处理，(k2，list(v2))成为reduce函数的输入，产生map/reduce计算的结果(k3，v3)。图1map/reduce计算模型　2.云计算技术　　数据存储和分析效率，是推断服务优劣程度的重要指标。多年来，IT界内存容量和磁盘容量大幅增加，然而数据存储和数据分析的效率却未能满意企业的要求。将云计算产品Hadoop应用于数据的存储、分析，能提高数据存储和分析的效率。传统的数据存储、分析，将一张表存储在一台机器上，一条SELECT语句被一台机器执行，影响效率的关键因素是单机的性能。HDFS将一个大文件分块存储在集群的各个节点上，完成数据存储的分解；map/reduce将一个数据分析任务下发到各个节点上，完成任务的分解。各个节点并行的进行数据存储和分析，最终通过归约各个节点的结果完成任务。Hadoop系统强大的数据处理能力，鲜亮的云计算的特征，已经被业界广泛的接受，并被应用于生产。　　2.1HDFS的数据存储　　数据文件有效记录1221215条，大小为457MB，每一行是数据库的一条记录，将数据备份至HDF