多时间尺度的多智能体强化学习方法及装置.pdfVIP

下载本文档

7
0
约1.51万字
约 15页
2023-05-23 发布于四川
举报

多时间尺度的多智能体强化学习方法及装置.pdf

本发明公开了一种多时间尺度的多智能体强化学习方法及装置，其中，方法包括以下步骤：获取智能体间的关联拓扑结构；基于关联拓扑结构使得相邻的智能体之间相互观测状态、动作及收益；根据观测状态、动作及收益进行多智能体强化学习，更新多时间尺度的多智能体强化学习模型。该方法可以有效降低通讯复杂度和求解复杂度，更加符合现实应用的需求，且能够处理更加一般的问题，具有更加广泛的适用性，能够处理更多的实际应用问题。

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 112163690 A (43)申请公布日 2021.01.01 (21)申请号 202010838181.0 (22)申请日 2020.08.19 (71)申请人清华大学地址 10

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

多时间尺度的多智能体强化学习方法及装置.pdfVIP

多时间尺度的多智能体强化学习方法及装置.pdf

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档