MARL中Nash平衡与meta平衡比较研讨.pdfVIP

下载本文档

9
0
约9.1千字
约 5页
2018-01-11 发布于广东
举报
版权申诉

MARL中Nash平衡与meta平衡比较研讨.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

MARL中Nash平衡与meta平衡比较研究姚怡星高阳王皓南京大学计算机软件新技术国家重点实验室，南京210093 yaoyixing@ai．nju．edu．cn gaoy@nju．edu．cnwanghao@ai．niu．edu．cn 中的特性和作用，提出一种基于meta平衡理论的两agentMARL算法metaQ，并通过试验验证metaO算法性能优于NashQ算法。 NashQ 关键词：metaQ meta平衡Nash平衡MARL 1．引言多agent强化学习(MARL)是目前机器学习领域冬受关注的研究热点之一。对多agent环境中任何一 DecisionProcess，个agent而言，由于其它学习agent的存在，环境不再满足马尔可夫决策过程(Markov MDP)的静态环境假设，因而以Q学习为代表的传统强化学习算法失去收敛性保证，无法简单的扩展到多 Game)作为MARL的研究框架，并提出用于双人 agent环境。Littman首先提出将Markov博弈(Markov 零合博弈的MaxminQ[2]算法，开创了基于博弈论的MARL研究的先河。随着相关研究的深入，基于博弈论 NashQ[3，4】。 Meta博弈是在基本博弈基础上扩展局中人策略构造的博弈，其基本思想是局中人在考虑其他局中人可 MARL中的作用，提出meta博弈可能比一般博弈更适合于描述MARL，并通过试验证明基于Meta平衡的 MetaQ算法【7】性能优于NasbQ算法。 2．背景 M．Littman率先把博弈论引入MARL研究领域，他提议把马尔可夫博弈(MarkovGame)作为MARL 研究框架【2】，马尔可夫博弈定义如下：定义1马尔可夫博弈(Markov it状态J∈S下可选择的动作集合，?’表示中力个agent的集合，s是环境有限状态集，40)是agent 特定状态下采取各种联合动作可能获得下个状态的概率分布，曩(岛国是第agentl在状态s∈S下采用联合 reward)。动作西∈II．A，(s)获得的即时奖赏(immediate 中人f的策略集，以其Q值为其受付(payoff)的不断博弈过程，所有agent选择一次动作都是一次博弈。 game)豹MaxminQ算法f2】，虽然该方法适用范围狭窄， Littman还提出双agent零合博弈(zero．slim 义和博弈的NashQ算法[3，4】。简单来说，Nash平衡关注在局中人完全无协作前提下互相之间的最佳反应，在Nash平衡点任何局中人在其他局中人的策略不变的前提下单方面改变策略都无法增加再自身收益。证明在Nash平衡唯一的条件下，NashQ方法保证收敛【31。NashQ的通用性和收敛性使其成为基于博弈论的MARL算法的代表。除NashQ外，其它基于博弈论的方法还有Friend·or-foeQ【6】、correlated·Q【7】等。 467 虽然NashQ方法被广泛接受，但其研究出发点却受到置疑，正如Shoham所指出的，NashQ收敛条件苛刻：即使能够收敛，Nash平衡也只是所有可能不动点中的一个，选择它作为学习目标的动机不够充分。 3．Nash平衡和meta平衡对比 3．1Meta博弈与meta平衡 Meta博弈由NigelHoward提出，其基本思想是假设每个局中人都在考虑其他局中人的可能采取的策略的条件下选择策略扩展基本博弈的策略集，由此构造超越基本博弈的模型。构造meta博弈的过程如下：在基本博弈厂的基础上，若局中人f根据其它局中人选择策略做出策略选择，这样的博弈记为f厂：如果把 if作为基本博弈，还可以进一步扩展到／f厂，依次类推可得岛屯…砖厂，这样的博弈称为基本博弈厂的meta博弈，举例来说