CN114647515B 一种面向gpu集群的动态资源调度方法 (杭州电子科技大学).docxVIP

  • 0
  • 0
  • 约1.94万字
  • 约 32页
  • 2026-01-15 发布于重庆
  • 举报

CN114647515B 一种面向gpu集群的动态资源调度方法 (杭州电子科技大学).docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN114647515B(45)授权公告日2025.07.04

(21)申请号202210382828.2

(22)申请日2022.04.12

(65)同一申请的已公布的文献号申请公布号CN114647515A

(43)申请公布日2022.06.21

(73)专利权人杭州电子科技大学

地址310018浙江省杭州市下沙高教园区2

号大街

(72)发明人胡海洋宋建飞傅懋钟李忠金

(74)专利代理机构杭州君度专利代理事务所(特殊普通合伙)33240

专利代理师朱亚冠

(51)Int.CI.

GO6F9/50(2006.01)

GO6N20/00(2019.01)

(56)对比文件

傅懋钟;胡海洋;李忠金.面向GPU集群的动态资源调度方法.计算机研究与发展.2022,(第006期),全文.

审查员徐振新

权利要求书4页说明书10页附图3页

(54)发明名称

一种面向GPU集群的动态资源调度方法

(57)摘要

CN114647515B本发明公开一种面向GPU集群的动态资源调度方法。构建资源-时间模型和资源-性能模型;进行分布式深度学习任务的动态资源方案决策;根据任务的最优方案R执行物理资源节点分配;在动态资源调度算法每次执行任务调度流程前,将分析已运行任务情况,决定是否进行资源迁移:调度器执行调度算法选择新的任务至GPU集群运行。本发明综合考虑了任务自身的完成时间和用户截至完成时间,根据GPU集群负载情况和任务运行情况可实时动态调度GPU工作,有效减少了深度学习训练任务完成时间,最大化截止时间保证率并有效地提高了GPU

CN114647515B

资源迁移

资源迁移

为等待队列中的任务执行资源配置决策

任务在截止

时间内结束?否

添加到预期任务队列添加到非预期任务队列

是否存在预

期任务?否

选择离截止时间最近的非预期任务作为调度任务

为调度任务进行物理资源分配

选择离截止时间最近的预期任务作为调度任务

CN114647515B权利要求书1/4页

2

1.一种面向GPU集群的动态资源调度方法,其特征在于包括以下步骤:

步骤(1)、基于分布式机器学习的Ring-Allreduce通信架构下的DNN模型迭代特征和GPU设备间的带宽差异,构建资源-时间模型:

所述资源-时间模型包括如下:

(1.1)分布式深度学习任务在某个资源方案下的实际运行时间T表示如下:

Trun=Tstep×Nstep×Nepoch式(1)

其中,Tstep是DNN模型训练一个批次大小的数据集所花费的时间,Nstep是DNN模型在一个迭代回合中可输入的一个批次大小的数据集个数,Nepoch表示迭代回合;

(1.2)Tste由单个CPU设备上的计算时间Tca?、CPU与CPU设备间的通信时间T所组成,其计算公式如下:

Tstep=Tca?+Tco式(2)

(1.3)Nste会随着资源方案所包含的GPU总数不同而发生变化,数量越多,则Nstep则相应地减少;Nstep、DNN模型训练数据集大小Sataset、批次大小Sbatch和GPU总数N?u在分布式数据并行训练过程中的关系如下:

式(3)

其中,Ncpu由资源方案上每个节点的Ccusea累加得到,Cuse表示训练任务在单个节点上被使用的GPU数量;

(1.4)通过将DNN模型放置在单个GPU设备上进行若干批次的迭代并记录对应的运行时间,由于不涉及多设备通信,因此该运行时间仅包含将单个GPU设备上的计算时间表示如下:

式(4)

其中,Tstep是若干次迭代的运行时间,N’step是相应的迭代次数;

(1.5)如果不存在通信时间,那么任务的运行时间和资源方案所包含的GPU总数将为反比关系,即随着GPU总数上升,任务的运行时间将会成比例下降,而存在通信时间时,则会导致运行效率的下降;Ring-Allreduce通信架构下的通信时间T表示如下:

式(5)

其中,BW是两GPU设备之间的带宽速度,如果两GPU设备处于同一个节点上,则BW就是节点内GPU设备之间的带宽,如果两GPU设备处于不同节点,则BW就是节点间的网

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档