一种基于状态价值保留的QMIX强化学习方法.pdfVIP

  • 8
  • 0
  • 约1.92万字
  • 约 13页
  • 2024-04-06 发布于四川
  • 举报

一种基于状态价值保留的QMIX强化学习方法.pdf

本发明提供一种基于状态价值保留的QMIX强化学习方法,以QMIX算法框架构建状态价值保留的QMIX算法框架;将智能体网络与环境做交互并将相应的数据存入经验缓存池中;采样batch批次的数据,将智能体网络输出的状态‑动作值函数、历史轨迹信息一起输入进状态价值保留混合网络中;使用训练好的智能体网络与任务环境做交互,达到去中心化执行的目的。本发明对QMIX算法进行改进,通过考虑死亡智能体先前的贡献,来保留死亡智能体的状态价值。全面考虑死后智能体的状态价值在全局时空上的影响,引入注意力机制。通过对状态价

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN117829249A

(43)申请公布日2024.04.05

(21)申请号202311578029.3

(22)申请日2023.11.23

(71)申请人华南农业大学

地址510630

文档评论(0)

1亿VIP精品文档

相关文档