- 0
- 0
- 约2.6万字
- 约 38页
- 2026-01-19 发布于重庆
- 举报
(19)国家知识产权局
(12)发明专利申请
(10)申请公布号CN120276667A(43)申请公布日2025.07.08
(21)申请号202510219153.3
(22)申请日2025.02.26
(71)申请人上海芷锐电子科技有限公司
地址200100上海市闵行区苏召路1628号
(72)发明人朱帅
(74)专利代理机构北京超凡宏宇知识产权代理有限公司11463
专利代理师李光霞
(51)Int.CI.
GO6F3/06(2006.01)
GO6N5/04(2023.01)
GO6N3/092(2023.01)
权利要求书2页说明书14页附图4页
(54)发明名称
键值缓存数据的调度方法、大模型推理方法
及装置
(57)摘要
CN120276967A本申请提供一种键值缓存数据的调度方法、大模型推理方法及装置,涉及人工智能技术领域。该方法包括:利用预测模型预测大模型推理后续token所需的目标键值缓存数据;后续token是指大模型还未推理的token;判断是否需要对所述目标键值缓存数据进行调度;若需要调度,则生成调度策略;根据调度策略从第一存储空间获取目标键值缓存数据,并将目标键值缓存数据存储至第二存储空间;其中,目标键值缓存数据用于使大模型推理后续token。本申请减少对第一存储空间的频繁访问,并且,每次只传输需要的目标键值缓存数据,而非全量的键值缓存数
CN120276967A
利用预测模型预测大模型推理后续token
利用预测模型预测大模型推理后续token所需的目标键值缓存数据
判断是否需要对目标键值缓存数据进行调度
若需要调度,则生成调度策略
根据调度策略从第一存储空间获取目标
键值缓存数据,并将目标键值缓存数据
存储至第二存储空间
101
102
103
104
CN120276667A权利要求书1/2页
2
1.一种键值缓存数据的调度方法,其特征在于,包括:
利用预测模型预测大模型推理后续token所需的目标键值缓存数据;所述后续token是指所述大模型还未推理的token;
判断是否需要对所述目标键值缓存数据进行调度;
若需要调度,则生成调度策略;
根据所述调度策略从第一存储空间获取所述目标键值缓存数据,并将所述目标键值缓存数据存储至第二存储空间;其中,所述目标键值缓存数据用于使所述大模型推理所述后续token;所述第一存储空间用于存储全量的键值缓存数据;所述大模型在推理过程中,从所述第二存储空间中读取所需的键值缓存数据。
2.根据权利要求1所述的方法,其特征在于,所述利用预测模型预测大模型推理后续token所需的目标键值缓存数据,包括:
将已推理tokens、当前token、所述当前token的位置信息输入所述预测模型,获得所述预测模型输出的所述后续token推理所需的目标键值缓存数据;其中,所述当前token是指所述大模型正在推理的token。
3.根据权利要求1所述的方法,其特征在于,所述判断是否需要对所述目标键值缓存数据进行调度,包括:
判断所述第二存储空间是否存储有所述目标键值缓存数据;
若所述第二存储空间没有存储有所述目标键值缓存数据,则确定需要调度;否则不需
要调度。
4.根据权利要求1所述的方法,其特征在于,所述生成调度策略,包括:
将所述目标键值缓存数据、所述第二存储空间中已存储的键值缓存数据和环境特征输入调度模型中,获得所述调度模型输出的调度策略;其中,所述环境特征包括高带宽内存HBM容量、HBM占用率、动态随机存取存储器DRAM容量、DRAM占用率、中央处理器CPU直接读写带宽、图形处理器GPU直接读写带宽、CPU占用率和GPU占用率中的至少一项。
5.根据权利要求4所述的方法,其特征在于,所述调度模型为基于强化学习算法训练获得。
6.根据权利要求1所述的方法,其特征在于,在将所述目标键值缓存数据存储至第二存储空间之前,所述方法还包括:
若所述第二存储空间不足,则从所述第二存储空间中删除部分键值缓存数据。
7.根据权利要求6所述的方法,其特征在于,所述从所述第二存储空间中删除部分键值缓存数据,包括:
将所述第二存储空间中,将推理token序列中前预设数量的token对应的键值缓存数据排除,获得排除后的键值缓存数据;
从所述排除后的键值缓存数据中,按照所述目标键值缓存数据的大小
您可能关注的文档
- CN120259288A 一种基于机器视觉的保护器双金片检测方法 (广州森宝电器股份有限公司).docx
- CN120259298A 基于智能图像识别的数据线表面缺陷快速无损检测方法 (深圳市海鑫达连接线有限公司).docx
- CN120259310A 一种用于鲜蛋清洗的污渍检测方法 (蛋品一号食品有限公司).docx
- CN120259372A 基于红外和可见光图像融合的海面目标跟踪方法及系统 (哈尔滨工业大学(威海)).docx
- CN120259639A 一种基于视觉的轨道区域内目标物快速识别方法 (中数智科(杭州)科技有限公司).docx
- CN120259798A 一种医用织物清洁消毒检查方法及设备 (四川省医学科学院·四川省人民医院).docx
- CN120259864A 基于多模态特征与域自适应的水下目标检测方法 (海南经贸职业技术学院).docx
- CN120259974A 一种高速公路隧道监控方法、系统、设备及介质 (山西交通控股集团有限公司吕梁北高速公路分公司).docx
- CN120260292A 天地一体动态交通流分析和道路拓扑推理方法、装置 (江苏大学).docx
- CN120260348A 一种基于多传感器融合的机场鸟击防范方法及系统 (山东鹰格信息工程有限公司).docx
- CN120276686A 存储空间的优化方法和装置、电子设备和存储介质 (苏州元脑智能科技有限公司).docx
- CN120276725A 刀轨编程方法、设备、可读存储介质及计算机程序产品 (歌尔股份有限公司).docx
- CN120276830A 一种资源调度方法及相关设备 (北京百卓网络技术有限公司).docx
- CN120276839A 一种基于cpu忙碌状态的动态cpu调度方法、系统、设备以及介质 (中控技术股份有限公司).docx
- CN120276849A 利用弹性资源池化技术来动态地再平衡吞吐量的方法 (微软技术许可有限责任公司).docx
- CN120276861A 一种多租户环境下的算力共享系统及方法 (云聚数据科技(上海)有限公司).docx
- CN120276873A 负载均衡方法、装置、电子设备、存储介质和程序产品 (济南浪潮数据技术有限公司).docx
- CN120276875A 基于Agent的工具组合及处理任务方法、装置、设备及介质 (上海航动科技有限公司).docx
- CN120276907A 服务器故障根因分析方法、装置、电子设备及存储介质 (苏州元脑智能科技有限公司).docx
- CN120276908A 基于人工智能的运维日志事件关联分析方法及系统 (上海擎创信息技术有限公司).docx
最近下载
- 2025年江苏卫生健康职业学院单招笔试英语试题库含答案解析.docx VIP
- 机电一体化系统设计(修版)课后答案-张建民编.pdf
- 设计周期、进度计划及承诺.docx VIP
- 人教版小学三年级上册数学期末评估试题(答题卡).doc VIP
- 第四部分CQI-17教材-ESD.ppt VIP
- 期末测试卷(试题)-2025-2026学年一年级上册数学青岛版.docx VIP
- 医疗机构管理条例实施细则2023医疗机构管理条例实施细则2023.pptx VIP
- 血透室医院感染控制.pptx VIP
- 人教版三年级数学上册全册教案(全册).pdf VIP
- 测量系统分析MSA模板(GRR+线性+偏倚+稳定性+计数型)-全公式未加密.xlsx
原创力文档

文档评论(0)