基于多Agent Q学习的RoboCup局部配合策略.pdfVIP

基于多Agent Q学习的RoboCup局部配合策略.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于多Agent Q学习的RoboCup局部配合策略.pdf

ComputerEngineeringandApplications计算机工程与应用 基于多AgentQ学习的RoboCup局部配合策略 赵发君,李龙澍 ZHAOFajun,LILongshu 安徽大学 计算机科学与技术学院,合肥 230601 SchoolofComputerScienceandEngineering,AnhuiUniversity,Hefei230601,China ZHAOFajlib,LILongshu.RoboCupregionalcooperativestrategybasedonmulti—AgentQ-learning.Computer EngineeringandApplications,2014,50(23):127-130. Abstract:Becausemanymulti—AgentcooperativeproblemscanhardlybesolvedinRoboCup,thispaperinvestigatesa regionalcooperativemulti—AgentQ-learningmethod.Throughsubdividingthestadium areaandrewardsofagents,the agents’collaborationabilitycanbestrengthened.Asaresult,theteam ’Soffensiveanddefensiveabilitiesareenhanced. Atthesametime,theagentscan spendlesstimelearn ingviarestrictingtheusingrangeofthealgorithm.Consequently, thereal—timeofthegamecanbeensured.Finally,theexperimentontheplatform ofthesimulation2D provesthatthe effectofthismethodismuchbetterthanthatofthepreviousone,anditfullycomplieswiththedesignoftheoriginalgoa1. Keywords:stochasticgame;Q—learning;real—time;regionalcooperation;RoboCupsimulation2D;cooperativestrategy 摘 要:针对RoboCup(RobotWorldCup)中,多Agent之间的配合策略问题 ,采用了一种局部合作的多AgentQ.学 习方法:通过细分球场区域和Agent回报值的方法,加强了Agent之 间的协作能力,从而增强了队伍的进攻和防守能 力。同时通过约束此算法的使用范围,减少了学习所用的时间,确保 了比赛的实时性。最后在仿真2D平台上进行 的实验证明,该方法比以前的效果更好,完全符合初期的设计 目标 关键词 :随机对策;Q.学习;实时性;局部合作;RoboCup仿真2D;配合策略 文献标志码:A 中图分类号:TP181 doi:10.3778~.issn.1002.8331.1301.0093 1 引言 的方法是:只有带球球员才进行Q.学习获得最优动作 , RoboCup是近年世界上规模最大的机器人足球大 即在马尔科夫决策环境 中(MDP) ,选择 Q值最大的 赛,包括仿真和实体两类比赛项 目U]oRoboCup仿真2D 动作执行 ,并根据执行动作后的球场评估来更新该动作 是RoboCup最早的项 目,也是软件仿真项 目的重要组成 的Q值 ,不带球球员则使用事先规定好的策略选择动 部分 。是各个研究团体在人工智能和多Agent智能体 作 ,比如 ,跑位 ,铲球等 ,这样并不能很好地与带球球员 协作方面研究的交流平台 。 互相协作 ,更不能对多变的球场状态做出很好的反应。 RoboCup仿真2D的比赛平台是模仿人类足球赛的 本文采用改进的O.学习算法使得不带球球员也可以用 场地和规则制作 出来的。整场比赛分为上下半场 ,各 Q.学习算法得到最优动作来实现多Agent之间的协作, 10min。比赛中以100ms为周期,每个球员为单独的程

文档评论(0)

月光般思恋 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档