- 0
- 0
- 约9.05万字
- 约 123页
- 2026-01-22 发布于重庆
- 举报
(19)国家知识产权局
(12)发明专利申请
(10)申请公布号CN120297323A(43)申请公布日2025.07.11
(21)申请号202410039699.6
(22)申请日2024.01.09
(71)申请人腾讯科技(深圳)有限公司
地址518057广东省深圳市南山区高新区
科技中一路腾讯大厦35层
(72)发明人白丰硕赵瑞
(74)专利代理机构北京三高永信知识产权代理有限责任公司11138
专利代理师唐述灿
(51)Int.CI.
GO6N3/008(2023.01)
GO6N20/00(2019.01)
权利要求书5页说明书52页附图7页
(54)发明名称
智能体的动作决策模型的训练方法、动作决策方法及装置
(57)摘要
CN120297323A本申请公开了一种智能体的动作决策模型的训练方法、动作决策方法及装置,属于计算机技术领域。本申请通过在历史轨迹的基础上构建状态拓扑图,能够充分反映智能体的动作的经验分布,对历史轨迹的信息利用率更高,带来了更多的信息量,在状态拓扑图的基础上指导训练动作反馈模型,提升了动作反馈模型的准确性,结合状态拓扑图和动作反馈模型,约束动作值模型的训练过程,得到准确性更好、性能更优的动作值模型,利用动作值模型协助训练出准确性更好的动作决策模型,有助于对智能体在给定状态下执行何种动作进行精准决策,并且动作决策模型
CN120297323A
计算机设备基于智能体的多条历史轨迹,构建状态拓扑围,每条该
计算机设备基于智能体的多条历史轨迹,构建状态拓扑围,每条该
历史轨迹包含多个动作,每个动作用于控制不同状态之间的转移,
该状态拓扑图中的每个节点指示一个状态,每条连接一对节点的有
向边指示一个动作
计算机设备基于该状态拓扑图,训练该智能体的动作反馈模型,该
动作反馈模型用于提供该智能体所驻留的环境对该智能体所执行的一
动作的反馈信号
计算机设备基于该状态拓扑图和该动作反馈模型,训练该智能体的
动作值模型,该动作值模型用于评估该智能体所执行的动作对于该
环境产生影响的价值
计算机设备基于该动作值模型,训练该智能体的动作决策模型,该动作决策模型用于决策该智能体在给定状态下所应执行的动作
302
303
304
CN120297323A权利要求书1/5页
2
1.一种智能体的动作决策模型的训练方法,其特征在于,所述方法包括:
基于智能体的多条历史轨迹,构建状态拓扑图,每条所述历史轨迹包含多个动作,每个所述动作用于控制不同状态之间的转移,所述状态拓扑图中的每个节点指示一个状态,每条连接一对节点的有向边指示一个动作;
基于所述状态拓扑图,训练所述智能体的动作反馈模型,所述动作反馈模型用于提供所述智能体所驻留的环境对所述智能体所执行的动作的反馈信号;
基于所述状态拓扑图和所述动作反馈模型,训练所述智能体的动作值模型,所述动作值模型用于评估所述智能体所执行的动作对于所述环境产生影响的价值;
基于所述动作值模型,训练所述智能体的动作决策模型,所述动作决策模型用于决策所述智能体在给定状态下所应执行的动作。
2.根据权利要求1所述的方法,其特征在于,所述基于智能体的多条历史轨迹,构建状态拓扑图包括:
初始化所述状态拓扑图;
对任一条所述历史轨迹中的任一动作,若在所述状态拓扑图中查询到指示所述动作的有向边,更新所述有向边关联的访问次数,所述访问次数指示对所述有向边的查询频次;
若在所述状态拓扑图中未查询到指示所述动作的有向边,确定所述动作关联的起始状态和到达状态,基于指示所述起始状态的起始节点,新增指示所述到达状态的到达节点以及从所述起始节点指向所述到达节点的有向边。
3.根据权利要求1所述的方法,其特征在于,所述基于所述状态拓扑图,训练所述智能体的动作反馈模型包括:
基于所述状态拓扑图进行轨迹采样,得到多对采样轨迹,每对所述采样轨迹包含一对长度相等的采样轨迹;
采集所述多对采样轨迹的标注结果,所述标注结果指示每对所述采样轨迹中区分不同采样轨迹相对于所述智能体所执行任务的满意程度;
在满足反馈模型更新条件时,基于所述状态拓扑图和所述标注结果,训练所述动作反馈模型。
4.根据权利要求3所述的方法,其特征在于,所述基于所述状态拓扑图进行轨迹采样,得到多对采样轨迹包括:
从所述状态拓扑图的节点集合中随机采样,得到多个采样点;
以所述多个采样点中的任一
您可能关注的文档
- CN119992539B 一种花生内霉快速筛查方法及系统 (泗水县锦川花生食品有限公司).docx
- CN120011322B 基于多模态数据融合的设备运维数据管理系统及方法 (航天智控(北京)监测技术有限公司).docx
- CN120013938B 基于显微图像的加工表面质量检测系统及方法 (上海蛮吉光电科技有限公司).docx
- CN120028648B 一种基于大数据电缆系统故障分析方法 (福州安蒲特电气有限公司).docx
- CN120030420B 基于改进变换网络的变压器局部放电智能诊断方法 (江苏前景瑞信科技发展有限公司).docx
- CN120031360B 一种多队列并行的物流预约排队系统及方法 (上海诺捷信息科技有限公司).docx
- CN120031969B 基于多重对应点协同配准的激光语义同步定位与建图方法 (南京邮电大学).docx
- CN120032071B 基于模糊坐标补偿的桩基预埋区域智能测绘方法及装置 (青岛旭域土工材料股份有限公司).docx
- CN120047678B 一种用于异常大米检测的轻量级目标检测方法及系统 (吉林农业大学).docx
- CN120062738B 基于神经网络的工业空调节能方法 (天津小波智联信息技术有限公司).docx
最近下载
- 支部党员大会会议记录(支委会选举范例).docx VIP
- 深圳市宝安区2025-2026学年第一学期五年级语文期末学业质量评估卷(原卷+答案)统编版.docx VIP
- 山桐子种植加工、旅游项目可行性研究报告商业计划书.docx VIP
- 山桐子种植及种苗培育种植加工可行性研究报告申请备案.doc VIP
- 和田地区2026年度地直机关公开遴选公务员、事业单位公开选聘工作人员备考题库及完整答案详解1套.docx VIP
- 山桐子合作种植协议合同.docx VIP
- 2025年香氛未来趋势报告-英敏特.docx VIP
- 报告正文2014年太阳绿宝.pdf VIP
- 2025年高考:云南物理--试题及答案.pdf VIP
- 广东省深圳市宝安区2025-2026学年五年级上学期期末学业质量评估语文试卷.docx VIP
原创力文档

文档评论(0)