- 7
- 0
- 约1.51万字
- 约 15页
- 2023-05-23 发布于四川
- 举报
本发明公开了一种多时间尺度的多智能体强化学习方法及装置,其中,方法包括以下步骤:获取智能体间的关联拓扑结构;基于关联拓扑结构使得相邻的智能体之间相互观测状态、动作及收益;根据观测状态、动作及收益进行多智能体强化学习,更新多时间尺度的多智能体强化学习模型。该方法可以有效降低通讯复杂度和求解复杂度,更加符合现实应用的需求,且能够处理更加一般的问题,具有更加广泛的适用性,能够处理更多的实际应用问题。
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 CN 112163690 A
(43)申请公布日 2021.01.01
(21)申请号 202010838181.0
(22)申请日 2020.08.19
(71)申请人 清华大学
地址 10
您可能关注的文档
最近下载
- (高清版)B-T 7251.1-2023 低压成套开关设备和控制设备 第1部分:总则.pdf VIP
- 沸石转轮+RTO设备设计计算书.xlsx VIP
- 利用余热余压技改2x12mw热电工程项目可研报告.doc VIP
- 5、城轨工程项目全国劳务分包指导价(车站.盾构.铺轨).pdf VIP
- 【通用】心理课主题班会:《绰号大家谈》.pptx
- 正念疗法临床应用专家共识(2026版).docx VIP
- 2026年端午节前廉政党课.docx VIP
- JJF 2374-2026 新能源汽车电池包充放电 检测系统校准规范.pdf VIP
- SJG 201-2025 高标准物流仓储建筑技术标准.docx VIP
- 国能普定猴场风电项目建设管理纲要.doc VIP
原创力文档

文档评论(0)