基于多Agent Q学习的RoboCup局部配合策略.pdfVIP

下载本文档

3
0
约1.03万字
约 4页
2017-08-08 发布于湖北
举报
版权申诉

基于多Agent Q学习的RoboCup局部配合策略.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于多Agent Q学习的RoboCup局部配合策略.pdf

ComputerEngineeringandApplications计算机工程与应用基于多AgentQ学习的RoboCup局部配合策略赵发君，李龙澍 ZHAOFajun，LILongshu 安徽大学计算机科学与技术学院，合肥 230601 SchoolofComputerScienceandEngineering，AnhuiUniversity，Hefei230601，China ZHAOFajlib，LILongshu．RoboCupregionalcooperativestrategybasedonmulti—AgentQ-learning．Computer EngineeringandApplications，2014，50(23)：127-130． Abstract：Becausemanymulti—AgentcooperativeproblemscanhardlybesolvedinRoboCup，thispaperinvestigatesa regionalcooperativemulti—AgentQ-learningmethod．Throughsubdividingthestadium areaandrewardsofagents，the agents’collaborationabilitycanbestrengthened．Asaresult，theteam ’Soffensiveanddefensiveabilitiesareenhanced． Atthesametime，theagentscan spendlesstimelearn ingviarestrictingtheusingrangeofthealgorithm．Consequently, thereal—timeofthegamecanbeensured．Finally，theexperimentontheplatform ofthesimulation2D provesthatthe effectofthismethodismuchbetterthanthatofthepreviousone，anditfullycomplieswiththedesignoftheoriginalgoa1． Keywords：stochasticgame；Q—learning；real—time；regionalcooperation；RoboCupsimulation2D；cooperativestrategy 摘要：针对RoboCup(RobotWorldCup)中，多Agent之间的配合策略问题，采用了一种局部合作的多AgentQ．学习方法：通过细分球场区域和Agent回报值的方法，加强了Agent之间的协作能力，从而增强了队伍的进攻和防守能力。同时通过约束此算法的使用范围，减少了学习所用的时间，确保了比赛的实时性。最后在仿真2D平台上进行的实验证明，该方法比以前的效果更好，完全符合初期的设计目标关键词：随机对策；Q．学习；实时性；局部合作；RoboCup仿真2D；配合策略文献标志码：A 中图分类号：TP181 doi：10．3778~．issn．1002．8331．1301．0093 1 引言的方法是：只有带球球员才进行Q．学习获得最优动作， RoboCup是近年世界上规模最大的机器人足球大即在马尔科夫决策环境中(MDP) ，选择 Q值最大的赛，包括仿真和实体两类比赛项目U]oRoboCup仿真2D 动作执行，并根据执行动作后的球场评估来更新该动作是RoboCup最早的项目，也是软件仿真项目的重要组成的Q值，不带球球员则使用事先规定好的策略选择动部分。是各个研究团体在人工智能和多Agent智能体作，比如，跑位，铲球等，这样并不能很好地与带球球员协作方面研究的交流平台。互相协作，更不能对多变的球场状态做出很好的反应。 RoboCup仿真2D的比赛平台是模仿人类足球赛的本文采用改进的O．学习算法使得不带球球员也可以用场地和规则制作出来的。整场比赛分为上下半场，各 Q．学习算法得到最优动作来实现多Agent之间的协作， 10min。比赛中以100ms为周期，每个球员为单独的程