基于任务资源需求预测的人工智能算力调度.pdf

基于任务资源需求预测的人工智能算力调度.pdf

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

高技术通讯2024年第34卷第5期:475-485

doi:10.3772/j.issn.1002-0470.2024.05.004

基于任务资源需求预测的人工智能算力调度①

②∗∗∗③∗∗∗∗∗

杨明烜洪学海唐宏伟

(中国科学院计算技术研究所北京100190)

∗∗

(中国科学院大学北京100049)

∗∗∗

(中国科学院大学南京学院南京211135)

摘要为提升人工智能(AI)算力的任务执行效率和资源利用率,本文提出一种基于任

务资源需求预测的AI算力调度方法,指导资源调度过程。相比于以往大多数研究工作仅

围绕着图形处理器(GPU)资源设计的AI算力调度方法,本文充分考虑了多个维度资源

对用户任务运行效率和计算集群资源利用的影响。本文基于机器学习方法构建任务资源

需求预测模型,分析多维度资源对任务性能的影响,进而完成自适应资源伸缩调度,解决

用户超额申请问题。实验结果表明,在相同时间内,该方法实现了更多任务的部署和执

行。任务部署量提升25.3%,部署任务的完成率提升15.2%,GPU和内存利用率分别提

升7.2%和8.0%,提升了算力资源的总体利用率。

关键词资源调度;弹性资源分配;人工智能(AI);算力

为了高效训练大规模人工智能(artificialintelli-现调度目标。然而,现有研究工作都将算力集群的

gence,AI)机器学习任务(简称AI任务),研究机GPU硬件资源作为影响任务性能表现的主要因素,

构、科技企业、云厂商常常构建包含大量图形处理器忽视了算力集群中的中央处理器(centralprocessing

(graphicsprocessingunit,GPU)、神经网络处理器unit,CPU)、内存、网络等其他维度资源的影响。AI

(neural-networkprocessingunit,NPU)等硬件加速器算力调度需要考虑算力集群多维度资源的分配和利

的大规模计算集群,用于AI任务的增速提效。但从用。

成本与技术角度考虑,AI算力的能力提升不能只依

赖于算力硬件资源规模的增长,应该采用新的技术1相关工作

手段,面向现有AI算力资源,实现计算效率的提升。

因而,AI算力调度技术就成为需要研究的课题。此前相关研究工作中,关于AI算力集群调度的

AI算力调度,即AI算力资源所构成集群硬件研究是在面向大数据任务处理的传统集群调度方法

资源和计算任务匹配的调度,可用于提升AI算力的的基础上,根据AI任务特性对GPU资源的分配进

资源利用率和任务训练效率。这项研究近年来逐渐行优化,从而提升AI任务性能或GPU资源利用率。

成为人工智能领域研究的重点之一。越来越多的面文献[1]的调度器考虑了AI任务在训练过程中的

[1-5]

向AI算力调度的研究方案被提出,这些工作通周期性特性,以指导GPU分配和共享,实现GPU资

过对AI任务负载的特性分析,调整集群调度策略实源利用率的提升。文献[2]的调度器在设计中考虑

①国家重点研发计划(2016YFC1401706)资助项目。

②女,1999年生,博士生;

您可能关注的文档

文档评论(0)

新能源知识科普(本账号发布文档均来源于互联网公开资料,仅用于技术分享交流,相关版权为原作者所有。如果侵犯了您的相关权利,请提出指正,我们将立即删除相关资料)。

1亿VIP精品文档

相关文档