一种基于状态价值保留的QMIX强化学习方法.pdfVIP

下载本文档

8
0
约1.92万字
约 13页
2024-04-06 发布于四川
举报

一种基于状态价值保留的QMIX强化学习方法.pdf

本发明提供一种基于状态价值保留的QMIX强化学习方法，以QMIX算法框架构建状态价值保留的QMIX算法框架；将智能体网络与环境做交互并将相应的数据存入经验缓存池中；采样batch批次的数据，将智能体网络输出的状态‑动作值函数、历史轨迹信息一起输入进状态价值保留混合网络中；使用训练好的智能体网络与任务环境做交互，达到去中心化执行的目的。本发明对QMIX算法进行改进，通过考虑死亡智能体先前的贡献，来保留死亡智能体的状态价值。全面考虑死后智能体的状态价值在全局时空上的影响，引入注意力机制。通过对状态价

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN117829249A

(43)申请公布日2024.04.05

(21)申请号202311578029.3

(22)申请日2023.11.23

(71)申请人华南农业大学

地址510630

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

一种基于状态价值保留的QMIX强化学习方法.pdfVIP

一种基于状态价值保留的QMIX强化学习方法.pdf

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档