CN120235253A 一种基于cpu和gpu协同的混合专家模型推理方法（北京大学）.docxVIP

下载本文档

1
0
约1.07万字
约 16页
2026-01-12 发布于重庆
举报
版权申诉

CN120235253A 一种基于cpu和gpu协同的混合专家模型推理方法（北京大学）.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN120235253A(43)申请公布日2025.07.01

(21)申请号202510254307.2

(22)申请日2025.03.05

(71)申请人北京大学

GO6F12/0862(2016.01)

GO6F13/42(2006.01)

地址100871北京市海淀区颐和园路5号

(72)发明人李萌孙延范仲书璋王润声

(74)专利代理机构北京万象新悦知识产权代理有限公司11360

专利代理师贾晓玲

(51)Int.CI.

GO6N5/043(2023.01)

GO6N3/045(2023.01)

GO6N3/042(2023.01)

GO6N3/0442(2023.01)

GO6F9/50(2006.01)

GO6F9/48(2006.01)

权利要求书2页说明书5页附图2页

(54)发明名称

一种基于CPU和GPU协同的混合专家模型推

理方法

(57)摘要

CN120235253A本发明公开了一种基于CPU和GPU协同的混合专家模型推理方法，属于深度学习(machinelearning)领域。本发明构建混合专家模型的CPU-GPU计算框架，有效平衡异构计算资源负载，显著提升硬件利用率；且提供基于动态优先级分数的智能缓存管理机制，优先保留高需求专家，降低缓存缺失引发的传输开销；通过分离计算与传输任务的流水线并行设计，实现CPU计算与PCIe传输在GPU执行期间的重叠，有效隐藏延迟。此外，结合多层专家激活预测的前瞻性预取机制，提高专家缓存命中率。本发明兼容不同规模与结构的混合专家模型，在资源受限的异构平台上实现稳定高效的推理加

CN120235253A

高负载专家□低负载专家

E3EN专家预取机制

□□

混合调度策略

门控函数

动态缓存管理

核

模型系统

CN120235253A权利要求书1/2页

1.一种基于CPU和GPU协同的混合专家模型推理方法，具体包括以下步骤：

步骤1:给定一个自回归的混合专家模型M,其包含L层，每一层拥有N个专家E?,E?,…EN-1,将输入数据表示为X,其为形状为批大小，序列长度，隐藏层维度的张量，将单个专家在CPU平台处理负载为i的时间记作TPU,在GPU平台处理负载为i的时间记作TGPU,从CPU平台至GPU平台的传输时间记作TTrans;

步骤2:根据设定的专家缓存比例1,设每层的显存分配的专家数为t?,则t?=kN,将每层的专家均匀分配至GPU和CPU内存中；

步骤3:调用门控函数得到激活专家后，GPU优先考虑高负载已缓存专家的计算，CPU优先考虑低负载未缓存专家的计算，CPU-GPU传输机制优先考虑高负载无缓存专家从CPU到GPU的移动，将CPU平台处理专家的时间记作Tcpu(cpu_expert),GPU平台处理专家的时间记作Tgpu(gpu_expert),具体调度目标为：

arogminesnermax(Tcmu(Ccpu_expert),TSpme(gpu-expert)

步骤4:基于步骤3的调度目标，在门控函数给出专家负载后，设定GPU专家执行队列QG和CPU专家执行队列Qc,同时记录Qg总执行时间TGPu、专家从CPU到GPU的传输总时间TpcTe和Q总执行时间TcPU;

步骤5:将所有激活的专家按照是否缓存分为已缓存专家L10和未缓存专家I

列表，均按照负载从高到低排序，每次选择一个专家分配到Qg或Qc,单次选择中，若专家E被

分配到Q,负载为i,则TGPu的更新为：若E已缓存：;若E未缓存：TGPU=max(TGPU,Tpcle+TTrans)+TGPU;E未缓存的情况下，Tpcre需要更新为：Tcre=

TpcTe+Trans;若专家E,被分配到CPU队列，负载为i,则Tcu的更新为：TcPU=TcPu+TPU;

步骤6:根据

您可能关注的文档

文档评论（0）

aabbcc + 关注: 实名认证

文档贡献者

若下载文档格式有问题，请咨询qq1643702686索取原版

咨询Ta 进入空间

1亿VIP精品文档

更多 >

CN120235253A 一种基于cpu和gpu协同的混合专家模型推理方法（北京大学）.docxVIP