CN119539022A 一种基于奖励反馈的行动类模型优化方法 (言生行(北京)科技有限公司).docxVIP

  • 1
  • 0
  • 约1.65万字
  • 约 24页
  • 2026-05-13 发布于山西
  • 举报

CN119539022A 一种基于奖励反馈的行动类模型优化方法 (言生行(北京)科技有限公司).docx

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN119539022A

(43)申请公布日2025.02.28

(21)申请号202411643243.7

(22)申请日2024.11.18

(71)申请人言生行(北京)科技有限公司

地址100020北京市朝阳区安华里5区18号

楼五层18-20内503室

(72)发明人赵丹秦德阳秦宏伟

(74)专利代理机构北京中狮信通专利代理事务所(普通合伙)16147

专利代理师褚岩凤

(51)Int.Cl.

G06N3/092(2023.01)

G06N3/006(2023.01)

权利要求书3页说明书7页附图3页

(54)发明名称

一种基于奖励反馈的行动类模型优化方法

(57)摘要

本发明涉及优化方法技术领域,尤其涉及一种基于奖励反馈的行动类模型优化方法,其步骤如下:SI:构建多层次奖励函数;S2:开始与初始

CN119539022A化;S3:观察当前web环境状态;S4:行动执行;S5:环境反馈;S6:构建Reward模型奖励信号处理模块;S7:奖励信号处理;S8:架构行动评价网络;S9:行动评价;S10:策略更新;S11:判断是否完成任务或达到终止条件;本发明建立了一种更全面的行动反馈机制,不仅考虑最终奖励,还充分利用中间行动的效果,对智能体的行动进行更细

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档