开放环境下的协作多智能体强化学习进展.docx

下载文档

0
0
约15.74万字
约 104页
2025-02-23 发布于浙江
举报
版权申诉
保障服务

开放环境下的协作多智能体强化学习进展.docx

1、本文档共104页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

中国科学:信息科学2025年第55卷第2期:217–268

SCIENTIASINICAInformationis

评述

《中国科学》杂志社SCIENCECHINAPRESS

crossMark

开放环境下的协作多智能体强化学习进展

袁雷,张子谦,李立和,管聪,俞扬*

南京大学计算机软件新技术国家重点实验室,南京210023

*通信作者.E-mail:yuy@

收稿日期:2023–11–01;修回日期:2024–03–08;接受日期:2024–09–20;网络出版日期:2025–01–22

国家自然科学基金创新研究群体项目(批准号:和江苏省自然科学基金(批准号:BB资助

摘要多智能体强化学习(multi-agentreinforcementlearning,MARL)近年来获得广泛关注并在不同领域取得进展.其中,协作多智能体强化学习专注于训练智能体团队以协同完成单智能体难以应对的任务目标,在路径规划、无人驾驶、主动电压控制和动态算法配置等场景展现出巨大的应用潜力.如何提升系统协作效能是协作多智能体强化学习领域研究重点之一.以往的研究工作主要在简单、静态和封闭的环境设定中展开.随着人工智能技术落地的驱使,目前在多智能体协作领域也有部分研究开始对开放环境下的多智能体协作展开研究,这些工作从多个方面对智能体所处环境中要素可能发生改变这一情况进行探索与研究,并取得一定进展.但是当前主流工作仍然缺乏对该方向的综述.本文从强化学习概念着手,针对多智能体系统、协作多智能体强化学习、典型方法与测试环境进行介绍,对封闭到开放环境下的协作多智能体强化学习研究工作进行总结,提炼出多类研究方向并对典型工作进行介绍.最后,本文对当前研究的优势与不足进行了总结,对未来开放环境下协作多智能体强化学习的发展方向与待研究问题进行展望,以吸引更多研究人士参与这个新兴方向的研究与交流.

关键词强化学习,多智能体系统,多智能体协作,开放环境机器学习,开放环境多智能体协作

1引言

作为机器学习的一个分支,强化学习(reinforcementlearning,RL)[1]是一种解决序贯决策问题的有效方法,相较于监督学习与无监督学习,其显著的特点在于从交互中进行学习.在强化学习范式中,智能体通过与环境进行交互,根据所获得的奖赏或惩罚不断优化其策略.由于其学习方式与人类获取知识的方式类似,强化学习被视为实现通用人工智能(arti?cialgeneralintelligence,AGI)[2]的重要途径之一.早期的强化学习工作依赖于手工特征输入到线性模型进行估值和拟合,在复杂场景中表现不佳.在过去的十年中,得益于深度学习[3]的蓬勃发展,深度强化学习在各行各业取得瞩目成就.例如,深度Q-网络(deepQ-network,DQN)[4]在雅达利(Atari)视频游戏上超越了人类职业玩家;AlphaGo[5]在围棋人机大战中击败围棋世界冠军李世石;AlphaStar[6]在不完全信息即时战略游戏星际争霸II中战

引用格式:袁雷,张子谦,李立和,等.开放环境下的协作多智能体强化学习进展.中国科学:信息科学,2025,55:217–268,doi:10.1360/SSI-2023-0335

YuanL,ZhangZQ,LiLH,etal.Progressoncooperativemulti-agentreinforcementlearninginopenenvironment.SciSinInform,2025,55:217–268,doi:10.1360/SSI-2023-0335

?c2025《中国科学》杂志社

/doi/10.1360/SSI-2023-0335

袁雷等中国科学:信息科学2025年第55卷第2期218

胜了人类顶尖职业选手;OpenAIFive[7]在多人实时在线竞技游戏Dota2中表现出色;而AI-Suphx[8]在多人非完全信息博弈麻将中也取得了重要的成果.此外,强化学习的应用范围也逐渐从游戏领域扩展到现实生活

您可能关注的文档

文档评论（0）

我爱分享 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

开放环境下的协作多智能体强化学习进展.docx