CN119539082A 一种利用在线同步策略改进的大模型偏好对齐方法（上海奇思信息技术有限公司）.docxVIP

下载本文档

2
0
约1.09万字
约 17页
2026-05-11 发布于山西
举报

CN119539082A 一种利用在线同步策略改进的大模型偏好对齐方法（上海奇思信息技术有限公司）.docx

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN119539082A

(43)申请公布日2025.02.28

(21)申请号202411607834.9

(22)申请日2024.11.12

(71)申请人上海奇思信息技术有限公司

地址200030上海市徐汇区龙田路190号2

幢5层

(72)发明人李龙

(74)专利代理机构上海申汇专利代理有限公司31001

专利代理师翁若莹

(51)Int.Cl.

G06N5/04(2023.01)

G06N20/00(2019.01)

G06N3/092(2023.01)

权利要求书2页说明书5页附图2页

(54)发明名称

一种利用在线同步策略改进的大模型偏好

对齐方法

(57)摘要

CN119539082A本发明提出一种利用在线同步策略改进的大模型偏好对齐方法，基于同步策略优化与在线学习的方法，提出了一种新的偏好对齐流程，从训练流程上进行改造，增加了同步采样和在线参数更新等环节，实现了模型训练过程中的奖励模型更新和数据分布对齐，最终实现金融问答能力的有效提升。本发明实现在保持原有方法高效性的基础上，可以有效缩小策略之间的分布差异，保证最优策略的优化方向，同时近似实时的更新偏好数据的监督信息，增强了高奖励制度中奖励模型的可靠性，更好的对齐人类偏好，从而保证在金融业务领域的可靠性

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

CN119539082A 一种利用在线同步策略改进的大模型偏好对齐方法（上海奇思信息技术有限公司）.docxVIP