- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种一种多用户间共享mapre-duce集群的改进算法
0 maprdwell网络标准及调度算法
交付算法是指交付资源并执行任务的过程。在多用户的情况下如何实现效率和公平的均衡是其主要目的。具体到实现时,作业大小以及作业的类型(如计算密集型和I/O密集型)都是必须考虑的因素。MapReduce和Dryad之类的集群计算系统最初是针对于像Web检索之类的批量作业。随着此类集群系统应用的扩大,多用户之间共享集群,针对同一个数据集的长批量作业和短交互式作业的混合愈来愈成为主流。共享集群使统计复用成为可能,减少了为每个群组建立独立集群的开销,同时数据的共用也避免了跨集群的数据复制的开销。
针对MapRduce集群,先后提出了很多的调度算法:FIFO调度,HOD调度,公平调度。每种调度策略都有其一定适用性,但面对同时处理生产型的大作业、机器学习型计算、即席查询混合的集群,其局限性愈加突出。
1 在对现有脚本算法进行比较分析的基础上
1.1 基于东南角的mapcdune-roe
MapReduce是由Google发明的一种处理大规模数据的分布式编程框架,最初是由Google的工程师设计并实现。Google给出的定义为,Map/Reduce是一个编程模型,是一个用于处理和生成大规模数据集的相关实现。
本文使用开源的Hadoop进行MapReduce的学习和研究。Hadoop是一种流行的MapReduce计算模型的开源实现,用于大规模数据集的并行化分析处理。Hadoop由Hadoop MapReduce和HDFS(Hadoop Distributed File System)组成。HDFS提供了一个集群范围内的全局文件访问机制。
Hadoop中的作业调度是Job Tracker指派任务(tasks)到相应Task Tracker上执行的过程。下面对Hadoop中的调度算法进行介绍和分析。
1.2 基于fifo的调度优化算法
Hadoop默认的调度策略是带有优先级的FIFO(First In First Out)。所有的用户作业被提交到唯一的一个队列中。按照优先级高低和提交时间先后的顺序扫描整个作业队列,选择一个满足要求的作业执行。
FIFO实现较简单,整个集群的调度开销较少。FIFO调度算法最大的缺点是在存在大作业的情况下小作业响应时间较差。如生产性作业长期占据集群资源将造成其他用户的批处理作业难以忍受如此长的响应时间,也使其他用户的交互式查询变得长时间得不到处理。
在Hadoop中这个问题的第一个解决方案是HOD(Hadoop On Demand)。
1.3 作业响应时间
HOD是一个能在共享物理集群上使用Torque(资源管理器)提供私有的Hadoop MapReduce集群和Hadoop分布式文件系统实例的系统。
HOD在改善小作业的响应时间方面相较FIFO有了很大的进步。但是也存在着不可忽视的问题。其一,较差的数据本地性,HDFS文件是存在所有的节点上的,而每一个私有的Reduce集群却运行在固定的子集节点上。这就导致一部分Map任务的输入数据不在本地私有集群的节点上,必须通过网络读取数据,从而降低了系统的吞吐率和作业的响应时间。其二,较差的资源利用率,正因为私有集群大小的固定,会出现有的私有集群出现作业等待而有的私有集群存在空闲节点。
1.4 公平调度的实现
为了解决HOD调度算法产生的问题,Facebook提出了公平调度算法(Fair Scheduling)。公平调度算法尽可能保证每个用户都获得相等的资源份额。当单独一个作业在运行时,它将使用整个集群。当有新用户提交作业后,系统会将任务槽(task slot)赋给这些新的用户,从而使得每个用户都能获取大致等量的CPU资源。除了提供公平共享方法外,公平调度还提供了最小共享额度方法。每个池i设置一个最小共享额度ni(槽个数),调度器在进行调度时会确保每个池在有需要时可以获得它的最小共享额度。当一个池的最小共享额度没有完全使用时,空闲的槽可以被分配给其他的池。
公平调度为两级调度。第一级,在池间分配作业槽,其中,多用户情况下把每个用户组织成一个池。第二级,每个池(用户)在自己的作业间分配槽。在第一级采用有最小共享额度的公平调度算法,在池(用户)级别分配作业槽。在每个池(用户)内部每个用户可以使用不同的调度策略如FIFO、HOD、公平调度算法。
1.4.1 槽分配分配m
用户级的槽分配算法采用最小共享额度的公平调度。如在5个池之间分配200个槽。其最小共享额度和要求额度分别为:(m1=60,d1=55),(m2=30,d2=35),(m3=15,d3=18),(m4=20,d4=25),(m5=25,d5=27)。槽分配分为三个阶段。第一阶段分配槽给那些最小共享额度大于要求额度的池。第二
您可能关注的文档
最近下载
- 食材配送服务方案.docx VIP
- T∕CHAS 10-4-6-2018 中国医院质量安全管理 第4-6部分:医疗管理 医疗安全(不良)事件管理(可复制版).pdf
- 条形基础软弱下卧层计算书.xls VIP
- JB_T 10085-2020 汽轮机表面式凝汽器.pdf VIP
- 食药监食监三便函.doc
- 2023年中医师承考试试卷.pdf VIP
- 专题04 二次根式重难点题型专训(9个知识点+18大题型+4大拓展训练+自我检测)(原卷版).pdf VIP
- 婴儿呼吸机操作手册.docx VIP
- 17J008 挡土墙(重力式、衡重式、悬臂式)(最新).pdf VIP
- 二零二五年度柴油油品居间销售合同模板-@-1.docx VIP
原创力文档


文档评论(0)