- 1
- 0
- 约1.65万字
- 约 24页
- 2026-05-13 发布于山西
- 举报
(19)国家知识产权局
(12)发明专利申请
(10)申请公布号CN119539022A
(43)申请公布日2025.02.28
(21)申请号202411643243.7
(22)申请日2024.11.18
(71)申请人言生行(北京)科技有限公司
地址100020北京市朝阳区安华里5区18号
楼五层18-20内503室
(72)发明人赵丹秦德阳秦宏伟
(74)专利代理机构北京中狮信通专利代理事务所(普通合伙)16147
专利代理师褚岩凤
(51)Int.Cl.
G06N3/092(2023.01)
G06N3/006(2023.01)
权利要求书3页说明书7页附图3页
(54)发明名称
一种基于奖励反馈的行动类模型优化方法
(57)摘要
本发明涉及优化方法技术领域,尤其涉及一种基于奖励反馈的行动类模型优化方法,其步骤如下:SI:构建多层次奖励函数;S2:开始与初始
CN119539022A化;S3:观察当前web环境状态;S4:行动执行;S5:环境反馈;S6:构建Reward模型奖励信号处理模块;S7:奖励信号处理;S8:架构行动评价网络;S9:行动评价;S10:策略更新;S11:判断是否完成任务或达到终止条件;本发明建立了一种更全面的行动反馈机制,不仅考虑最终奖励,还充分利用中间行动的效果,对智能体的行动进行更细
您可能关注的文档
- CN119538687A 一种基于工程结构失效的风险确定方法和系统 (西安理工大学).docx
- CN119538692A 一种基于深度学习的智能套料组合优化方法及系统 (汪猛).docx
- CN119538702A 一种注塑工艺参数多目标优化方法 (江苏师范大学).docx
- CN119538703A 基于物理信息神经网络的惯性微系统热力耦合分析方法 (北京航天控制仪器研究所).docx
- CN119538708A 一种基于KAN网络的Ia型超新星光谱参数快速反演方法 (三峡大学).docx
- CN119538710A 基于河流分段水环境容量分析的污染研究及水质预测方法 (南京市市政设计研究院有限责任公司).docx
- CN119538739A 考虑燃料电池输出功率下降的dqn能量管理策略优化方法 (北京交通大学).docx
- CN119538741A 一种电动汽车电池温度全局轨迹优化方法、系统、设备及介质 (吉林大学).docx
- CN119538741B 一种电动汽车电池温度全局轨迹优化方法、系统、设备及介质 (吉林大学).docx
- CN119538743A 一种预测电池soh和rul的模型训练方法、预测方法及设备 (南通乐创新能源有限公司).docx
原创力文档

文档评论(0)