- 1、本文档共88页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分布式图并行计算框架的调度分析与优化-软件工程专业论文
万方数据
万方数据
Submitted in total ful?lment of the requirements for the degree of Master in Software Engineering
Distributed Graph-Parallel Framework Scheduling Analysis and Optimization
C??????? X??
Supervisor Prof. H???? C???
S????? ?? S??????? S??????? J??? T??? U?????????
S???????, P.R.C????
Jan. 12th, 2015
上海交通大学硕士学位论文 摘要
分布式图并行计算框架的调度分析与优化
摘 要
随着大数据时代的到来,基于大规模数据的信息分析和数据挖掘技术逐渐 适用于众多领域。对于大规模数据处理的编程模型以及计算效率的需求一直是 研究领域的热点问题之一。其中,数据并行(Data-Parallel)的处理模型(如 Map-Reduce 等分布式编程框架)的提出与优化,在过去的几年中为大规模数据 的并行处理提供了重要的支持;然而,随着搜索与分析等需求的语义化,数据 分析的应用场景也不断增多,机器学习与数据挖掘技术的兴起,也使得分布式 应用的算法趋向于复杂化,主要体现为计算的过程在单元数据的顺序计算的基 础上增加了迭代性与关联性。因此,图并行(Graph-Parallel)的处理模型被提 出,并逐渐成为大数据时代的下一个研究重点。
大规模图并行处理模型的设计本质上具有迭代与收敛的计算特性:输入数 据以一个单元的顶点结构为中心,单元数据之间的关联性被抽象为图结构中的 边,每个顶点根据边的依赖关系不断进行信息传递与迭代计算,直到达到平衡 的收敛状态。由于图并行处理模式的这种计算特性,在实现时具有同步(Sync) 与异步(Async)两种不同的迭代调度模式。而这两种调度模式在顶点计算的 调度顺序、调度层的管理结构以及硬件和网络资源的利用率等方面都具有显著 的差异。然而,现阶段基于这两种调度模式的比较与分析的相关研究仍然十分 稀缺,在实际的图并行处理应用的开发中,图计算编程人员通常需要根据经验 选择同步或异步调度模式其中之一。这不仅要求编程人员对于图并行编程框架 的底层实现具有深入的理解,也使得图并行应用的计算性能无法得到最优的保 障。
基于这些问题,本文主要进行了以下几个方面的研究: 首先,我们基于同步和异步两种调度模式的经典实现框架与一系列典型的
图并行计算的应用,创新性地对这两种调度模式的特性和性能表现进行了深入
的对比分析与归纳。我们的研究通过详细的性能测试,展示了这两种调度模式 在不同的图并行处理算法、不同的图划分算法、不同的计算执行阶段、不同的
— i —
分布式图并行计算框架的调度分析与优化 上海交通大学硕士学位论文
输入数据以及不同的集群性能配置等情况下,具有显著的性能表现差异。同时,
我们归纳和总结了不同情况下调度模式选择的倾向性,并发现了潜在的性能提 升空间。
其次,本文提出了 Hsync 模式——一种自适应切换于同步与异步调度方式 之间的启发式的图并行处理调度模式,从而尝试达到图并行处理应用在性能表 现上的最优化。Hsync 模式会在应用的计算过程中持续地收集执行时的系统状 态,结合启发式的判断策略,预测同步与异步两种调度方式的执行性能,判断 是否应该进行状态转换从而切换到一个更优的调度方式继续执行。
本文的研究在经典的分布式图并行计算框架——PowerGraph 框架的基础上 进行了修改和扩展,实现了支持 Hsync 调度模式的 PowerSwitch 系统。该实现 的核心主要包括了调度方式转换的支持模块,以及用于预测两种方式的调度性 能的在线和线下的采样分析模块,并归纳总结了一系列的启发式判断规则。
此外,我们的研究基于一个 48 个节点的分布式集群配置,对于 PowerSwitch 系统进行了详细的性能评测。评测显示,我们系统的计算性能优于同配置下的 同步或异步的单一调度模式。通过调度方式的转换,PowerSwitch 系统在相较 于同步或异步中最优的调度模式的基础上,能够额外获得 9% 到 73% 的性能提 升。
关键词: 分布式图计算 同步调度模式 异步调度模式 分 布式系统
ii —
上海交通大学硕士学位论文 ABSTRACT
Distributed Graph-Parallel Framework Scheduling Analysis and Optimization
ABSTRACT
Big-Data processing has become a hot topic in distributed computa
您可能关注的文档
- 公路改扩建工程新旧路基沉降数值模拟分析-道路与铁道工程专业论文.docx
- 公路改扩建纵断面设计研究-道路与铁道工程专业论文.docx
- 公路改扩建工程项目管理关键技术研究-交通运输规划与管理专业论文.docx
- 公路桥梁全寿命周期成本分析-桥梁与隧道工程专业论文.docx
- 公路改造新理念在山区道路设计中的应用-交通运输工程专业论文.docx
- 公路桥梁全寿命周期成本研究-结构工程专业论文.docx
- 公路桥梁动力响应灵敏度研究-桥梁与隧道工程专业论文.docx
- 公路桥梁侧风行车安全对策的数值方法研究-桥梁与隧道工程专业论文.docx
- 公路桥梁大直径钻孔灌注桩轴向承载力优化设计研究-岩土工程专业论文.docx
- 公路桥梁在多车激励作用下车桥耦合振动响应研究-建筑与土木工程专业论文.docx
文档评论(0)