CN119647588A 基于时间分离式流水线架构的高通量大模型推理方法、装置、设备及存储介质 (中山大学).docxVIP

  • 2
  • 0
  • 约2.54万字
  • 约 37页
  • 2026-06-05 发布于山西
  • 举报

CN119647588A 基于时间分离式流水线架构的高通量大模型推理方法、装置、设备及存储介质 (中山大学).docx

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN119647588A

(43)申请公布日2025.03.18

(21)申请号202411619194.3

(22)申请日2024.11.13

(71)申请人中山大学

地址510275广东省广州市海珠区新港西

路135号

申请人善思开悟科技(成都)有限公司

(72)发明人卢宇彤陈志广杜江溯朱江徐永昌余溢

(74)专利代理机构深圳市世纪恒程知识产权代理事务所44287

专利代理师鲁叶

(51)Int.Cl.

G06N5/04(2023.01)

G06F9/50(2006.01)

权利要求书2页说明书14页附图4页

(54)发明名称

基于时间分离式流水线架构的高通量大模

型推理方法、装置、设备及存储介质

(57)摘要

CN119647588A本申请公开了一种基于时间分离式流水线架构的高通量大模型推理方法、装置、设备及存储介质,涉及大模型推理技术领域,所述基于时间分离式流水线架构的高通量大模型推理方法包括:在当前推理阶段为预填充阶段时,根据客户端请求进行预填充,确定各请求决策点的键值缓存容量;根据各请求决策点的键值缓存容量和预设内存容量确定阶段切换时机;根据所述阶段切换时机将所述当前推理阶段从所述预填充阶段切换至解码阶段,并根据预设负载平衡策略对所述

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档