CN119539022A 一种基于奖励反馈的行动类模型优化方法（言生行(北京)科技有限公司）.docxVIP

下载本文档

1
0
约1.65万字
约 24页
2026-05-13 发布于山西
举报

CN119539022A 一种基于奖励反馈的行动类模型优化方法（言生行(北京)科技有限公司）.docx

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN119539022A

(43)申请公布日2025.02.28

(21)申请号202411643243.7

(22)申请日2024.11.18

(71)申请人言生行（北京）科技有限公司

地址100020北京市朝阳区安华里5区18号

楼五层18-20内503室

(72)发明人赵丹秦德阳秦宏伟

(74)专利代理机构北京中狮信通专利代理事务所(普通合伙)16147

专利代理师褚岩凤

(51)Int.Cl.

G06N3/092(2023.01)

G06N3/006(2023.01)

权利要求书3页说明书7页附图3页

(54)发明名称

一种基于奖励反馈的行动类模型优化方法

(57)摘要

本发明涉及优化方法技术领域，尤其涉及一种基于奖励反馈的行动类模型优化方法，其步骤如下：SI：构建多层次奖励函数；S2：开始与初始

CN119539022A化；S3：观察当前web环境状态；S4：行动执行；S5：环境反馈；S6：构建Reward模型奖励信号处理模块；S7：奖励信号处理；S8：架构行动评价网络；S9：行动评价；S10：策略更新；S11：判断是否完成任务或达到终止条件；本发明建立了一种更全面的行动反馈机制，不仅考虑最终奖励，还充分利用中间行动的效果，对智能体的行动进行更细

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

CN119539022A 一种基于奖励反馈的行动类模型优化方法（言生行(北京)科技有限公司）.docxVIP