- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
(19)国家知识产权局
(12)发明专利申请
(10)申请公布号CN120235253A(43)申请公布日2025.07.01
(21)申请号202510254307.2
(22)申请日2025.03.05
(71)申请人北京大学
GO6F12/0862(2016.01)
GO6F13/42(2006.01)
地址100871北京市海淀区颐和园路5号
(72)发明人李萌孙延范仲书璋王润声
(74)专利代理机构北京万象新悦知识产权代理有限公司11360
专利代理师贾晓玲
(51)Int.CI.
GO6N5/043(2023.01)
GO6N3/045(2023.01)
GO6N3/042(2023.01)
GO6N3/0442(2023.01)
GO6F9/50(2006.01)
GO6F9/48(2006.01)
权利要求书2页说明书5页附图2页
(54)发明名称
一种基于CPU和GPU协同的混合专家模型推
理方法
(57)摘要
CN120235253A本发明公开了一种基于CPU和GPU协同的混合专家模型推理方法,属于深度学习(machinelearning)领域。本发明构建混合专家模型的CPU-GPU计算框架,有效平衡异构计算资源负载,显著提升硬件利用率;且提供基于动态优先级分数的智能缓存管理机制,优先保留高需求专家,降低缓存缺失引发的传输开销;通过分离计算与传输任务的流水线并行设计,实现CPU计算与PCIe传输在GPU执行期间的重叠,有效隐藏延迟。此外,结合多层专家激活预测的前瞻性预取机制,提高专家缓存命中率。本发明兼容不同规模与结构的混合专家模型,在资源受限的异构平台上实现稳定高效的推理加
CN120235253A
高负载专家□低负载专家
E3EN专家预取机制
E3
□□
混合调度策略
门控函数
动态缓存管理
核
模型系统
CN120235253A权利要求书1/2页
2
1.一种基于CPU和GPU协同的混合专家模型推理方法,具体包括以下步骤:
步骤1:给定一个自回归的混合专家模型M,其包含L层,每一层拥有N个专家E?,E?,…EN-1,将输入数据表示为X,其为形状为批大小,序列长度,隐藏层维度的张量,将单个专家在CPU平台处理负载为i的时间记作TPU,在GPU平台处理负载为i的时间记作TGPU,从CPU平台至GPU平台的传输时间记作TTrans;
步骤2:根据设定的专家缓存比例1,设每层的显存分配的专家数为t?,则t?=kN,将每层的专家均匀分配至GPU和CPU内存中;
步骤3:调用门控函数得到激活专家后,GPU优先考虑高负载已缓存专家的计算,CPU优先考虑低负载未缓存专家的计算,CPU-GPU传输机制优先考虑高负载无缓存专家从CPU到GPU的移动,将CPU平台处理专家的时间记作Tcpu(cpu_expert),GPU平台处理专家的时间记作Tgpu(gpu_expert),具体调度目标为:
arogminesnermax(Tcmu(Ccpu_expert),TSpme(gpu-expert)
步骤4:基于步骤3的调度目标,在门控函数给出专家负载后,设定GPU专家执行队列QG和CPU专家执行队列Qc,同时记录Qg总执行时间TGPu、专家从CPU到GPU的传输总时间TpcTe和Q总执行时间TcPU;
步骤5:将所有激活的专家按照是否缓存分为已缓存专家L10和未缓存专家I
列表,均按照负载从高到低排序,每次选择一个专家分配到Qg或Qc,单次选择中,若专家E被
分配到Q,负载为i,则TGPu的更新为:若E已缓存:;若E未缓存:TGPU=max(TGPU,Tpcle+TTrans)+TGPU;E未缓存的情况下,Tpcre需要更新为:Tcre=
TpcTe+Trans;若专家E,被分配到CPU队列,负载为i,则Tcu的更新为:TcPU=TcPu+TPU;
步骤6:根据
您可能关注的文档
- CN119763660B 一种基于环境dna和机器学习的水体污染物溯源方法 (同济大学).docx
- CN119783732B 一种基于多源遥感技术的找矿方法、装置、设备及介质 (云南大学).docx
- CN119785380B 一种基于煤矿场景的跨模态行人重识别方法 (济宁安泰矿山设备制造有限公司).docx
- CN119787351B 基于时序数据分析的电力网络拓扑优化方法 (安徽方能电气技术有限公司).docx
- CN119788969B 用于扫码摄像头角度自适应调节方法、系统及电子设备 (深圳市欧森纳斯科技有限公司).docx
- CN119795175B 一种基于多智能体强化学习的灵巧双手协同控制方法 (北京联合大学).docx
- CN119804335B 基于光取向液晶芯片的快照穆勒矩阵偏振成像装置及方法 (浙江大学).docx
- CN119811510B 一种单细胞Hi-C数据增强方法、系统及存储介质 (中山大学).docx
- CN119813228B 基于LLM Agent的电力系统运行方式自适应计算方法 (山东大学).docx
- CN119822238B 基于多传感器融合的智能抓斗控制方法及系统 (长沙盈海智能科技有限公司).docx
最近下载
- 2025年广西声乐艺考题目及答案.doc VIP
- T-ZJASE024-2024呼吸阀定期校验规则.pptx VIP
- State Grid Green Energy 全国公共机构节约能源资源综合信息平台(管理机构版) 用户手册.pdf
- 欠款车辆抵押协议书.docx VIP
- 一种PMI泡沫材料及其制备方法和应用.pdf VIP
- 2025年中小学教师职业心理健康测试题.docx VIP
- 半小时漫画中国史分享----好书推荐精品课件.pptx VIP
- T∕CAAMTB 28-2021 旅居车辆标志和安全要求.pdf
- T_CPQS A0053-2025 乘用车转向灵巧性测试方法.docx VIP
- 六年级有关解方程的应用题专项练习.docx VIP
原创力文档


文档评论(0)