- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘 要
深度强化学习的出现有效解决了强化学习遇到的维度灾难问题,当智能体处
于高维环境中时,深度强化学习使用深度神经网络对环境进行特征提取,并利用
强化学习方法进行智能体策略的学习。随着深度强化学习在单智能体环境中取得
成功应用,越来越多的研究者开始将其应用在多智能体协同环境中。与单智能体
环境不同,在多智能体协同环境中,每个智能体的策略都在训练中不断变化,导
致智能体始终处于动态的环境之中,使智能体的策略难以收敛。多智能体协同还
需要解决智能体之间的通信问题,有效的通信机制可以加速智能体策略的学习。
同时,当环境中智能体数量不断增加,使得智能体状态空间变大,多智能体协同
算法的收敛性会面临挑战。针对以上在多智能体协同中存在的问题,本文主要进
行了下面几点研究:
(1)为了帮助智能体在多智能体环境中稳定学习环境,本文利用集中训练
CTDE Soft Actor-Critic SAC
和分散执行 ( )框架对最大熵深度强化学习算法 ( )
进行扩展,提出了基于最大熵的多智能体深度强化学习算法MASAC 。当智能体
在训练时,可以利用环境中的额外信息,包括其他智能体的观察和动作,帮助智
能体稳定学习环境,提高算法的稳定性。而智能体在执行过程中只需要使用自身
的观察作为策略网络的输入,进行智能体动作的决策。为了解决MASAC 中智能
体之间的通信问题,本文引入一种在智能体之间共享的通信设备,智能体利用门
机制和GRU 的原理实现对通信设备的读操作和写操作。在训练过程中,智能体
需要不断学习有效的通信方法,从而使智能体获得更好的表现。同时,MASAC
为每个智能体构建了单独的critic 网络,使得每个智能体具有独立的奖励函数。
MASAC
实验表明, 在协同、竞争或协同和竞争兼有的环境中均有较好表现,在
局部可观察的环境中,智能体之间有效的通信提高了智能体的表现。
(2)对于MASAC 随着环境中智能体数量的增加,表现下降的问题,本文
利用自注意力机制,改善MASAC 的可扩展性问题,提出算法ATT-MASAC 。自
注意力机制利用注意力权重,可以帮助智能体区分环境中不同状态信息的重要
性,将更多的权重赋予能够提高智能体表现的关键信息,而忽略不重要的信息,
使得智能体的critic 网络能够更加有效的对环境信息进行处理。同时,
ATT-MASAC 中每个智能体具有单独的自注意力机制模型,相比于共享注意力参
数的算法,ATT-MASAC 在拥有复杂奖励结构的环境中,可以具有更好的表现。
实验表明,在更加复杂的多智能体环境中,ATT-MASAC 具有更好的可扩展性。
该论文有图31 幅,表5 个,参考文献81 篇。
关键词:深度强化学习;多智能体协同;集中训练;智能体通信;自注意力机制
I
Abstract
The emergence of deep reinforcement learning effectively solves the dimensional
disaster problem encountered in reinforcement learning. When an agent is in a
high-dimensional environment, deep reinforcement learning uses deep neural
networks to extract features from environments, and uses reinforcement learning
methods to learn an agent policy. With the successful application of deep
reinforcement learning in single-agent enviro
您可能关注的文档
最近下载
- 输输电线路角钢塔焊接件组装工艺技术规程(作业指导书9).doc VIP
- 文旅公司招聘笔试试题.pdf
- 诺华在中国-诺华中国Novartis.PDF VIP
- 4.《促织》课件(共62张PPT) 高教版(2023)中职语文基础模块上册.pptx VIP
- 威尔克姆V8[中文]说明书.pdf VIP
- 2022届中考真题、模考专项练习-“伏安法测电阻”、“测定小灯的电功率”(附答案).pdf VIP
- 专题1.1 整式的乘除(压轴题专项讲练)(北师大版)(原卷版).pdf VIP
- 2025—2026年印制电路板制造的节能环保趋势.pptx
- 再生润滑油基础油团体标准(TCRRA-0901-2023).pdf VIP
- 美世国际职位评估手册.pdf VIP
文档评论(0)