基于作业运行特征的大数据处理系统性能优化研究.docx

基于作业运行特征的大数据处理系统性能优化研究.docx

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

基于作业运行特征的大数据处理系统性能优化研究

?

?

肖坚

【摘要】随着信息技术的发展,大数据处理系统得到了较快的发展,其逐渐拓展为交互式查询、流计算及复杂迭代计算等实时性的计算场景,提升了数据的处理效率和质量。本文从分布式硬件计算平台资源动态性、分布式图数据划分与通信开销、负载均衡程度的关系特征等方面对基于作业运行特征的大数据处理系统性能优化作出全面系统的分析阐述。

【关键词】作业运行特征?大数据处理系统?性能优化

当前的分布式计算硬件计算资源分散、高度动态化,针对计算平台的任务调度机制往往无法实现作业执行时的资源利用率;软件处理引擎方面,当前的大数据处理系统所引进的抽象隔离、自动内存管理一定程度上增加了开销,不利于系统长期稳定发展;应用支撑方面,当前大数据应用因为稀疏特性导致数据处理效率不高,已经无法满足现代化数据处理需求。因此,开展基于作業运行特征的大数据处理系统性能优化十分必要和急迫。

一、分布式硬件计算平台资源动态性

分布式硬件计算平台资源动态性的研究主要目的在于构建大数据处理任务调度机制。目前来看,可以提供海量与可扩展的计算资源主要有两种,一种是通过网络连接至个人电脑所组成的桌面网格计算系统,另一种由云计算运行商所提供的廉价瞬时计算资源。桌面网格计算系统能够通过互联网,构建一种集成化和无缝隙的计算环境,在这种环境下计算资源和信息资源均可以全面共享。廉价瞬时计算资源属于瞬时虚拟服务器,多分布于云平台的地理分布数据中心,其弊端在于如果市场价格高出用户能承受、能接受的范围,则该计算资源会被平台所收回。

在大数据处理任务调度机制设计中,本文基于BitDew中间件实现计算框架,所应用的BitDew-MapReduce计算框架与传统桌面设计不同,所遵循的方法是数据为中心,经典的主从式分布计算架构可以确保计算节点有效从主控节点上获取计算任务,另外,还可以实现数据的调度与分发。BitDew系统包括包含主/从管理进程的运行时系统、MapReduce编程模型实现机WordCount应用程序(用于基准测试)。为了避免计算应用程序处理相同的数据导致重复数据传输这种情况的出现,本文所设计的BitDew-MapReduce特别定义了新的数据属性类型,即MUTAFF、DISTRIB。其中的MUTAFF作用在于定义数据的相互依赖关系,可以将其看作为AFFINITY的双向版本;DISTRIB是数据集属性,借助调度器可以保证同一个数据集在每一个计算节点的数据不超过用户设置量。设计工作完成后,要想实现良好的运行时系统,特别对主控节点和计算节点作了调整优化,BitDew-MapReduce不依赖计算节点上缓存多副本来保证数据的可用性,只需要输入DataCollection中的所有数据属性便可以实现作业启动操作,作业执行到末端后,调度服务器可以根据map任务令牌上的属性值显示剩余工作量,并将其调度到Worker上。计算节点使用ActiveDataAPI周期性从数据调度服务获取数据,而后依据数据类型决定将要执行的任务。

二、分布式图数据划分与通信开销、负载均衡程度的关系特征

分布式图数据划分与通信开销、负载均衡程度的关系特征重点解决的问题是两级分布式图划分机制。大数据处理系统的性能指标之一是可扩展性,这一性能尤其是在大规模数据中心环境的数据处理应用中尤为常见。一般来说,大数据可扩展性的分布式框架您必须具备两大特性,第一是必须可以根据节点硬件性能,对各个节点的计算负载加以动态平衡;第二是可以在合理时间对已经失效的作业执行进度加以恢复。本文所提出的动态负载均衡和容错机制基于两级图划分方法,更为重要的是借助开源系统PowerGraph可以实现高扩展的分布式图并行处理系统X-Graph。动态负载均衡机制的作用在于可以通过决定任务的重调度目标,而最终实现降低迁移后的消息传送开销。差异性复制容错机制最大的优势在于可以对已经丢失的数据分片进行重新计算,能够最大限度缩短因节点失效后的作业进度恢复时间,这大大提升了整个计算工作的效率与质量。

分多用户共享计算平台特征集中体现于硬件异构性、多用户资源调度机制、节点失效和资料抢占这三方面,对于多用户资源调度机制来说,当前最常用的数据中心资源调度器有Mesos、Borg、YARN,相同的一点是这几类数据中心资源调度器均可以对批处理计算任务和在线服务进程等进行统一的管理。对于节点失效和资料抢占来说,所借助的数据管理机制可以有效提升数据管理质量,即便数据丢失一个碎片,所有的计算节点仍然可以返回至上一次的检查点状态进行重新计算,这对于失效数据恢复十分有利,不过所开展的检查点创建一定程度上会拖慢数据处理效率,这一点仍需要后期分析研究,最终克服。

两级图划分机制设计上,本文创新性的提出一种元算法框架,可以直接采用Powe

文档评论(0)

134****4691 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档