- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
基于仿人足球机器人比赛平台搭建与进攻策略研究
摘要
随着科学技术的进步和社会生产力的发展,机器人足球比赛逐渐发展和流行,已经
成为机器人领域研究的一个热点问题,同时为军用机器人、工业机器人以及服务机器人
等众多领域提供一个良好的技术储备和基础,也为多智能体系统、机器人学领域提供一
个良好的平台。针对机器人足球比赛系统这个多智能体系统,本文在基于深度强化学习
的基础上,以GoogleResearchFootballEnvironment为实验平台,对多智能体的进攻策
略进行研究,研究内容如下:
首先,针对单智能体的三个基本策略:带球、传球、射门,提出一种基于改进的优
先回放DDPG算法的进攻策略。该算法通过对传统的DDPG算法中经验回放池进行改
进,利用经验回放池的“优胜劣汰”机制对DDPG网络数据进行优化,该算法加快了
DDPG网络的训练过程,加快了学习过程,将该方法应用到单智能体的带球、传球、射
门策略的学习中,并加快了策略的生成,提高了个体的技能,实验表明改进的DDPG算
法提高了单智能体的带球、传球、射门成功率。
其次,针对多智能体的进攻过程中模型收敛慢的问题,提高多智能体之间的协作能
力,提出一种基于联邦学习的MADDPG模型。首先对多智能体的基本任务模型进行分
析,在多智能体的网络模型基础上加入联邦学习的方式,将同一类型的智能体模型平均
化,减少状态空间的数量,加快球队进攻策略的生成。对比两种实验方法,实验数据验
证了改进的MADDPG算法收敛速度更快,且能有效的提高球队的进攻能力,提高球队
的胜率。
最后,本文以仿人足球机器人为基础进行实验验证,对机器人基本带球和射门动作
进行设计,使仿人足球机器人完成识别、跟踪、踢球等功能,搭建全局摄像头获取场地
信息,通过上位机发出动作指令,对机器人的相关策略的可行性进行验证。
关键词:进攻策略;DDPG算法;MADDPG算法;仿人足球机器人
基于仿人足球机器人比赛平台搭建与进攻策略研究
Abstract
Withtheadvancementofscienceandtechnologyandthedevelopmentofsocial
productivity,robotfootballhasgraduallydevelopedandbecomepopular,whichhasbecomea
hottopicinthefieldofrobots.Italsoprovidesagoodtechnicalreserveandfoundationfor
manyfieldssuchasmilitaryrobots,industrialrobots,andservicerobots,andprovidesagood
platformformulti-agentsystemsandrobotics.Inthispaper,basedondeepreinforcement
learningandusingGoogleResearchFootballEnvironmentastheexperimentalplatform,we
studytheattackstrategyofmulti-robots.Theresearchcontentsareasfollows:
Firstly,forthethreebasicstrategiesofasinglerobot:dribbling,passingandshooting,an
offensivestrategybasedonanimprovedpriorityplaybackDDPGalgorithmisproposed.This
algorithmimprovestheexperienceplaybackpoolinth
文档评论(0)