- 2
- 0
- 约1.09万字
- 约 17页
- 2026-05-11 发布于山西
- 举报
(19)国家知识产权局
(12)发明专利申请
(10)申请公布号CN119539082A
(43)申请公布日2025.02.28
(21)申请号202411607834.9
(22)申请日2024.11.12
(71)申请人上海奇思信息技术有限公司
地址200030上海市徐汇区龙田路190号2
幢5层
(72)发明人李龙
(74)专利代理机构上海申汇专利代理有限公司31001
专利代理师翁若莹
(51)Int.Cl.
G06N5/04(2023.01)
G06N20/00(2019.01)
G06N3/092(2023.01)
权利要求书2页说明书5页附图2页
(54)发明名称
一种利用在线同步策略改进的大模型偏好
对齐方法
(57)摘要
CN119539082A本发明提出一种利用在线同步策略改进的大模型偏好对齐方法,基于同步策略优化与在线学习的方法,提出了一种新的偏好对齐流程,从训练流程上进行改造,增加了同步采样和在线参数更新等环节,实现了模型训练过程中的奖励模型更新和数据分布对齐,最终实现金融问答能力的有效提升。本发明实现在保持原有方法高效性的基础上,可以有效缩小策略之间的分布差异,保证最优策略的优化方向,同时近似实时的更新偏好数据的监督信息,增强了高奖励制度中奖励模型的可靠性,更好的对齐人类偏好,从而保证在金融业务领域的可靠性
您可能关注的文档
- CN119538687A 一种基于工程结构失效的风险确定方法和系统 (西安理工大学).docx
- CN119538692A 一种基于深度学习的智能套料组合优化方法及系统 (汪猛).docx
- CN119538702A 一种注塑工艺参数多目标优化方法 (江苏师范大学).docx
- CN119538703A 基于物理信息神经网络的惯性微系统热力耦合分析方法 (北京航天控制仪器研究所).docx
- CN119538708A 一种基于KAN网络的Ia型超新星光谱参数快速反演方法 (三峡大学).docx
- CN119538710A 基于河流分段水环境容量分析的污染研究及水质预测方法 (南京市市政设计研究院有限责任公司).docx
- CN119538739A 考虑燃料电池输出功率下降的dqn能量管理策略优化方法 (北京交通大学).docx
- CN119538741A 一种电动汽车电池温度全局轨迹优化方法、系统、设备及介质 (吉林大学).docx
- CN119538741B 一种电动汽车电池温度全局轨迹优化方法、系统、设备及介质 (吉林大学).docx
- CN119538743A 一种预测电池soh和rul的模型训练方法、预测方法及设备 (南通乐创新能源有限公司).docx
原创力文档

文档评论(0)