多时间尺度的多智能体强化学习方法及装置.pdfVIP

  • 7
  • 0
  • 约1.51万字
  • 约 15页
  • 2023-05-23 发布于四川
  • 举报

多时间尺度的多智能体强化学习方法及装置.pdf

本发明公开了一种多时间尺度的多智能体强化学习方法及装置,其中,方法包括以下步骤:获取智能体间的关联拓扑结构;基于关联拓扑结构使得相邻的智能体之间相互观测状态、动作及收益;根据观测状态、动作及收益进行多智能体强化学习,更新多时间尺度的多智能体强化学习模型。该方法可以有效降低通讯复杂度和求解复杂度,更加符合现实应用的需求,且能够处理更加一般的问题,具有更加广泛的适用性,能够处理更多的实际应用问题。

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 112163690 A (43)申请公布日 2021.01.01 (21)申请号 202010838181.0 (22)申请日 2020.08.19 (71)申请人 清华大学 地址 10

文档评论(0)

1亿VIP精品文档

相关文档