CN114647515B 一种面向gpu集群的动态资源调度方法（杭州电子科技大学）.docxVIP

下载本文档

0
0
约1.94万字
约 32页
2026-01-15 发布于重庆
举报

CN114647515B 一种面向gpu集群的动态资源调度方法（杭州电子科技大学）.docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN114647515B(45)授权公告日2025.07.04

(21)申请号202210382828.2

(22)申请日2022.04.12

(65)同一申请的已公布的文献号申请公布号CN114647515A

(43)申请公布日2022.06.21

(73)专利权人杭州电子科技大学

地址310018浙江省杭州市下沙高教园区2

号大街

(72)发明人胡海洋宋建飞傅懋钟李忠金

(74)专利代理机构杭州君度专利代理事务所(特殊普通合伙)33240

专利代理师朱亚冠

(51)Int.CI.

GO6F9/50(2006.01)

GO6N20/00(2019.01)

(56)对比文件

傅懋钟；胡海洋；李忠金.面向GPU集群的动态资源调度方法.计算机研究与发展.2022,(第006期),全文.

审查员徐振新

权利要求书4页说明书10页附图3页

(54)发明名称

一种面向GPU集群的动态资源调度方法

(57)摘要

CN114647515B本发明公开一种面向GPU集群的动态资源调度方法。构建资源-时间模型和资源-性能模型；进行分布式深度学习任务的动态资源方案决策；根据任务的最优方案R执行物理资源节点分配；在动态资源调度算法每次执行任务调度流程前，将分析已运行任务情况，决定是否进行资源迁移：调度器执行调度算法选择新的任务至GPU集群运行。本发明综合考虑了任务自身的完成时间和用户截至完成时间，根据GPU集群负载情况和任务运行情况可实时动态调度GPU工作，有效减少了深度学习训练任务完成时间，最大化截止时间保证率并有效地提高了GPU

CN114647515B

资源迁移

为等待队列中的任务执行资源配置决策

任务在截止

时间内结束?否

添加到预期任务队列添加到非预期任务队列

是否存在预

期任务?否

选择离截止时间最近的非预期任务作为调度任务

为调度任务进行物理资源分配

选择离截止时间最近的预期任务作为调度任务

是

CN114647515B权利要求书1/4页

1.一种面向GPU集群的动态资源调度方法，其特征在于包括以下步骤：

步骤(1)、基于分布式机器学习的Ring-Allreduce通信架构下的DNN模型迭代特征和GPU设备间的带宽差异，构建资源-时间模型：

所述资源-时间模型包括如下：

(1.1)分布式深度学习任务在某个资源方案下的实际运行时间T表示如下：

Trun=Tstep×Nstep×Nepoch式(1)

其中，Tstep是DNN模型训练一个批次大小的数据集所花费的时间，Nstep是DNN模型在一个迭代回合中可输入的一个批次大小的数据集个数，Nepoch表示迭代回合；

(1.2)Tste由单个CPU设备上的计算时间Tca?、CPU与CPU设备间的通信时间T所组成，其计算公式如下：

Tstep=Tca?+Tco式(2)

(1.3)Nste会随着资源方案所包含的GPU总数不同而发生变化，数量越多，则Nstep则相应地减少；Nstep、DNN模型训练数据集大小Sataset、批次大小Sbatch和GPU总数N?u在分布式数据并行训练过程中的关系如下：

式(3)

其中，Ncpu由资源方案上每个节点的Ccusea累加得到，Cuse表示训练任务在单个节点上被使用的GPU数量；

(1.4)通过将DNN模型放置在单个GPU设备上进行若干批次的迭代并记录对应的运行时间，由于不涉及多设备通信，因此该运行时间仅包含将单个GPU设备上的计算时间表示如下：

式(4)

其中，Tstep是若干次迭代的运行时间，N’step是相应的迭代次数；

(1.5)如果不存在通信时间，那么任务的运行时间和资源方案所包含的GPU总数将为反比关系，即随着GPU总数上升，任务的运行时间将会成比例下降，而存在通信时间时，则会导致运行效率的下降；Ring-Allreduce通信架构下的通信时间T表示如下：

式(5)

其中，BW是两GPU设备之间的带宽速度，如果两GPU设备处于同一个节点上，则BW就是节点内GPU设备之间的带宽，如果两GPU设备处于不同节点，则BW就是节点间的网

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

CN114647515B 一种面向gpu集群的动态资源调度方法（杭州电子科技大学）.docxVIP