多智能体系统中的合作规范涌现机制研究.pdfVIP

多智能体系统中的合作规范涌现机制研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

摘要

多智能体系统作为一种分析复杂系统的思想方法和工具,在管理和协调各智

能体间交流合作方面具有重要的意义。然而,由于参与主体具有自私性和自主决

策能力,如何在复杂的场景下快速有效地涌现出合作规范成为系统发展过程中面

临的重大挑战。利用计算机技术重现真实系统中的简单主体,提出高效普适的理

论模型,让主体在交互过程利用局部信息不断优化自身行为进而涌现出合作规范;

并且通过分析仿真结果来认识、理解甚至控制多智能体系统,逐渐成为人工智能

和人工社会领域研究的核心问题。

本文以多智能体系统为背景,将其发展进程中所面临的问题场景抽象描述为

一般性的困境模型,在此基础上进行分析并提出了相应的合作规范涌现机制,主

要贡献在于:

(1)现有的工作对策略学习规则的研究过于单一,主要依靠收益、信誉等

简单的信息设计交互协议,未能充分考虑到主体丰富的认知能力和社会属性,导

致提出的理论模型难以准确的描述现实生活中主体真实的复杂行为特征。针对这

一问题,本文基于个人影响力提出了带奖惩机制的策略学习规则,该规则中主体

的决策行为主要由个体收益和个人影响力这两个属性共同决定。其中,个人影响

力主要由调整敏感度和当前策略所持续的时间共同控制,并根据主体的学习行为

进行相应的调整。实验结果表明,该学习方法有效的提高了系统整体的合作水平,

通过微观分析发现主体间个人影响力的差异是促使合作现象得到改善的主要原

因。最后本文验证了小世界网络和无标度网络等复杂网络中的实验现象,研究发

现该学习规则能够解决不同复杂网络场景中的困境问题。

(2)强化学习已经被证实无法在传统囚徒困境模型中涌现出合作规范,最

近基于历史信息进行策略探索的相关研究被证实可以在多策略博弈模型中取得

理想的合作效果。针对这一发现,本文提出运用强化学习方法在带剥削的多策略

博弈场景下解决合作规范涌现问题。实验结果表明强化学习方法有效的提高了系

统的合作水平,并且其提升合作的能力也强于已经被提出的其他策略学习规则。

另外,本文阐述了强化学习能够促进合作的原因,揭示了不同类型的智能体在系

统发展进程中扮演的角色。

关键词多智能体系统,合作规范,惩罚机制,强化学习

Abstract

Asamethodforanalyzingcomplexsystems,multi-agentsystemisofgreat

significanceinmanagingandcoordinatingcommunicationandcooperationamong

agents.However,duetotheselfishnessandindependentdecision-makingabilityofthe

participants,howtoquicklyandeffectivelyemergethecooperationnormsincomplex

scenarioshasbecomeamajorchallengeintheprocessofthesystemdevelopment.

Usingcomputertechnologytoreproducetheagentsintherealsystemandproposinga

highlyefficientanduniversaltheoreticalmodeltoallowagentstocontinuously

optimizetheirownbehaviorbyusinglocalinformationintheinteractionprocessto

emergeacooperationspecification.Inaddition,tolearn,understandandevencontrol

themulti-agentsystembyanalyzingthesimulationresultshasgraduallybecomethe

coreissueinthefieldofartificialintelligenceand

文档评论(0)

n1u1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档