基于深度强化学习的多智能体协同算法研究.pdfVIP

下载本文档

294
0
约12.07万字
约 69页
2020-09-20 发布于江苏
举报
版权申诉

基于深度强化学习的多智能体协同算法研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

摘要深度强化学习的出现有效解决了强化学习遇到的维度灾难问题，当智能体处于高维环境中时，深度强化学习使用深度神经网络对环境进行特征提取，并利用强化学习方法进行智能体策略的学习。随着深度强化学习在单智能体环境中取得成功应用，越来越多的研究者开始将其应用在多智能体协同环境中。与单智能体环境不同，在多智能体协同环境中，每个智能体的策略都在训练中不断变化，导致智能体始终处于动态的环境之中，使智能体的策略难以收敛。多智能体协同还需要解决智能体之间的通信问题，有效的通信机制可以加速智能体策略的学习。同时，当环境中智能体数量不断增加，使得智能体状态空间变大，多智能体协同算法的收敛性会面临挑战。针对以上在多智能体协同中存在的问题，本文主要进行了下面几点研究：（1）为了帮助智能体在多智能体环境中稳定学习环境，本文利用集中训练 CTDE Soft Actor-Critic SAC 和分散执行（）框架对最大熵深度强化学习算法（）进行扩展，提出了基于最大熵的多智能体深度强化学习算法MASAC 。当智能体在训练时，可以利用环境中的额外信息，包括其他智能体的观察和动作，帮助智能体稳定学习环境，提高算法的稳定性。而智能体在执行过程中只需要使用自身的观察作为策略网络的输入，进行智能体动作的决策。为了解决MASAC 中智能体之间的通信问题，本文引入一种在智能体之间共享的通信设备，智能体利用门机制和GRU 的原理实现对通信设备的读操作和写操作。在训练过程中，智能体需要不断学习有效的通信方法，从而使智能体获得更好的表现。同时，MASAC 为每个智能体构建了单独的critic 网络，使得每个智能体具有独立的奖励函数。 MASAC 实验表明，在协同、竞争或协同和竞争兼有的环境中均有较好表现，在局部可观察的环境中，智能体之间有效的通信提高了智能体的表现。（2）对于MASAC 随着环境中智能体数量的增加，表现下降的问题，本文利用自注意力机制，改善MASAC 的可扩展性问题，提出算法ATT-MASAC 。自注意力机制利用注意力权重，可以帮助智能体区分环境中不同状态信息的重要性，将更多的权重赋予能够提高智能体表现的关键信息，而忽略不重要的信息，使得智能体的critic 网络能够更加有效的对环境信息进行处理。同时， ATT-MASAC 中每个智能体具有单独的自注意力机制模型，相比于共享注意力参数的算法，ATT-MASAC 在拥有复杂奖励结构的环境中，可以具有更好的表现。实验表明，在更加复杂的多智能体环境中，ATT-MASAC 具有更好的可扩展性。该论文有图31 幅，表5 个，参考文献81 篇。关键词：深度强化学习；多智能体协同；集中训练；智能体通信；自注意力机制 I Abstract The emergence of deep reinforcement learning effectively solves the dimensional disaster problem encountered in reinforcement learning. When an agent is in a high-dimensional environment, deep reinforcement learning uses deep neural networks to extract features from environments, and uses reinforcement learning methods to learn an agent policy. With the successful application of deep reinforcement learning in single-agent enviro