CN120297323A 智能体的动作决策模型的训练方法、动作决策方法及装置 (腾讯科技(深圳)有限公司).docxVIP

  • 0
  • 0
  • 约9.05万字
  • 约 123页
  • 2026-01-22 发布于重庆
  • 举报

CN120297323A 智能体的动作决策模型的训练方法、动作决策方法及装置 (腾讯科技(深圳)有限公司).docx

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN120297323A(43)申请公布日2025.07.11

(21)申请号202410039699.6

(22)申请日2024.01.09

(71)申请人腾讯科技(深圳)有限公司

地址518057广东省深圳市南山区高新区

科技中一路腾讯大厦35层

(72)发明人白丰硕赵瑞

(74)专利代理机构北京三高永信知识产权代理有限责任公司11138

专利代理师唐述灿

(51)Int.CI.

GO6N3/008(2023.01)

GO6N20/00(2019.01)

权利要求书5页说明书52页附图7页

(54)发明名称

智能体的动作决策模型的训练方法、动作决策方法及装置

(57)摘要

CN120297323A本申请公开了一种智能体的动作决策模型的训练方法、动作决策方法及装置,属于计算机技术领域。本申请通过在历史轨迹的基础上构建状态拓扑图,能够充分反映智能体的动作的经验分布,对历史轨迹的信息利用率更高,带来了更多的信息量,在状态拓扑图的基础上指导训练动作反馈模型,提升了动作反馈模型的准确性,结合状态拓扑图和动作反馈模型,约束动作值模型的训练过程,得到准确性更好、性能更优的动作值模型,利用动作值模型协助训练出准确性更好的动作决策模型,有助于对智能体在给定状态下执行何种动作进行精准决策,并且动作决策模型

CN120297323A

计算机设备基于智能体的多条历史轨迹,构建状态拓扑围,每条该

计算机设备基于智能体的多条历史轨迹,构建状态拓扑围,每条该

历史轨迹包含多个动作,每个动作用于控制不同状态之间的转移,

该状态拓扑图中的每个节点指示一个状态,每条连接一对节点的有

向边指示一个动作

计算机设备基于该状态拓扑图,训练该智能体的动作反馈模型,该

动作反馈模型用于提供该智能体所驻留的环境对该智能体所执行的一

动作的反馈信号

计算机设备基于该状态拓扑图和该动作反馈模型,训练该智能体的

动作值模型,该动作值模型用于评估该智能体所执行的动作对于该

环境产生影响的价值

计算机设备基于该动作值模型,训练该智能体的动作决策模型,该动作决策模型用于决策该智能体在给定状态下所应执行的动作

302

303

304

CN120297323A权利要求书1/5页

2

1.一种智能体的动作决策模型的训练方法,其特征在于,所述方法包括:

基于智能体的多条历史轨迹,构建状态拓扑图,每条所述历史轨迹包含多个动作,每个所述动作用于控制不同状态之间的转移,所述状态拓扑图中的每个节点指示一个状态,每条连接一对节点的有向边指示一个动作;

基于所述状态拓扑图,训练所述智能体的动作反馈模型,所述动作反馈模型用于提供所述智能体所驻留的环境对所述智能体所执行的动作的反馈信号;

基于所述状态拓扑图和所述动作反馈模型,训练所述智能体的动作值模型,所述动作值模型用于评估所述智能体所执行的动作对于所述环境产生影响的价值;

基于所述动作值模型,训练所述智能体的动作决策模型,所述动作决策模型用于决策所述智能体在给定状态下所应执行的动作。

2.根据权利要求1所述的方法,其特征在于,所述基于智能体的多条历史轨迹,构建状态拓扑图包括:

初始化所述状态拓扑图;

对任一条所述历史轨迹中的任一动作,若在所述状态拓扑图中查询到指示所述动作的有向边,更新所述有向边关联的访问次数,所述访问次数指示对所述有向边的查询频次;

若在所述状态拓扑图中未查询到指示所述动作的有向边,确定所述动作关联的起始状态和到达状态,基于指示所述起始状态的起始节点,新增指示所述到达状态的到达节点以及从所述起始节点指向所述到达节点的有向边。

3.根据权利要求1所述的方法,其特征在于,所述基于所述状态拓扑图,训练所述智能体的动作反馈模型包括:

基于所述状态拓扑图进行轨迹采样,得到多对采样轨迹,每对所述采样轨迹包含一对长度相等的采样轨迹;

采集所述多对采样轨迹的标注结果,所述标注结果指示每对所述采样轨迹中区分不同采样轨迹相对于所述智能体所执行任务的满意程度;

在满足反馈模型更新条件时,基于所述状态拓扑图和所述标注结果,训练所述动作反馈模型。

4.根据权利要求3所述的方法,其特征在于,所述基于所述状态拓扑图进行轨迹采样,得到多对采样轨迹包括:

从所述状态拓扑图的节点集合中随机采样,得到多个采样点;

以所述多个采样点中的任一

文档评论(0)

1亿VIP精品文档

相关文档