大数据应用的中存储和处理问题剖析.ppt

下载文档

3
0
约7.54千字
约 47页
2023-03-28 发布于重庆
举报
版权申诉
保障服务

大数据应用的中存储和处理问题剖析.ppt

1、本文档共47页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

公平调度算法分析——相关算法当出现一个空闲slot时，公平调度器会将此slot分配给缺额最大的作业。系统每隔500毫秒（UPDATE_INTERVAL）更新一次信息（有一个专门的更新线程对job信息进行更新），包括：作业缺额（作业的其他属性，如权重、最小共享量、公平共享量等，均是为计算缺额服务的）、权重、最小共享量、公平共享量等。第三十页，共四十七页。公平调度算法分析——相关算法 1) 作业权重计算方法（1）默认情况下，权重是基于作业优先权的，但也可以基于作业的大小和年龄。权重的计算方法如下：（2）根据优先权计算权重：（3）根据用户自定义的weightAdjuster类调整权重第三十一页，共四十七页。公平调度算法分析——相关算法 2) 更新权重每个已经运行的作业权重更新公式： 3) 初始缺额计算每个作业的初始缺额mapDeficit,reduceDeficit设置为0. 4) 更新作业的最小共享量在每个pool中，将其拥有的slot按作业的权重分配给各个作业（由步骤(1)完成），分完之后将剩余的slot按作业的权重和缺额分配给仍需slot的作业（由步骤(2)和(3)完成），如果还有slot剩余，则将这些slot共享给其他pool。第三十二页，共四十七页。公平调度算法分析——相关算法初始化：当前所有作业的最小共享量置零； pool的minMaps数或者minReduces数（由用户在配置文件中设定）重复以下几步，直到slotsLeft=0：第三十三页，共四十七页。公平调度算法分析——相关算法（1）计算每个job的最小共享量：jobinfo.minMaps或jobinfo.minReduces 首先计算该作业可获得的共享值：根据当前pool的剩余slot数，调整该共享值：其中runnableNum表示作业尚需的slot数与正在运行的slot数之和，curMin表示作业的当前最小共享量（jobinfo.minMaps或jobinfo.minReduces），初始值为0。将slotsToGive作为最小共享量赋予相应的job。修改值为值减去slotsToGive。如果此轮循环中，slotsLeft值未变，即没有slot分给任何作业，则将剩余的slot共享给pool中所有job，即，执行（2）（3）并结束算法：第三十四页，共四十七页。大数据问题纽约证券交易所每天产生1TB的交易数据社交网站facebook的主机存储着约10亿张照片，占据PB级存储空间互联网档案馆存储着约2PB数据，并以每月至少20TB的速度增长。瑞士日内瓦附近的大型强子对撞机每年产生约15PB的数据这么大的数据该怎么存储和读取？第一页，共四十七页。传统关系型数据库（oracle）的成本 Facebook的服务器大概1万台，按照oracle的标准10g版本计算大约需要21亿元第二页，共四十七页。 Hadoop简介 Hadoop 一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。由 HDFS 、MapReduce 、 HBase 、 Hive 和 ZooKeeper等成员组成。其中， HDFS 和 MapReduce 是两个最基础最重要的成员。 HDFS 是 Google GFS 的开源版本，一个高度容错的分布式文件系统，它能够提供高吞吐量的数据访问，适合存储海量（ PB 级）的大文件（通常超过 64M ），其原理如图所示：第三页，共四十七页。 Hadoop优点可扩展：不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。经济：框架可以运行在任何普通的PC上。可靠：分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。（元数据磁盘错误，心跳测试，副本数，快照（目前还没实现））高效：分布式文件系统的高效数据交互实现以及MapReduce结合Local Data处理的模式，为高效处理海量的信息作了基础准备。第四页，共四十七页。 Hadoop在国内的分布情况第五页，共四十七页。 Hadoop作业调度默认调度算法FIFO 公平份额调度算法Fair Scheduler 计算能力调度算法Capacity Scheduler 作业调度总结第六页，共四十七页。默认调度算法FIFO 简介最早的Hadoop Map/Reduce计算架构中，JobTracker在进行作业调度时使用的是FIFO(First In First Out)算法。所有用户的作业都被提交到一个队列中，然后由JobTracker先按照作业的优先级高低，再按照作业提交时间的先后