强化学习在机器人足球半场进攻中的应用.pdfVIP

强化学习在机器人足球半场进攻中的应用.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络与通信 《微计算机信息)2011年第27卷第12期 文章编号:1008—0570(2011)12—0104—02 强化学习在机器人足球半场进攻中的应用 ApplicationofReinforcementLearning inHalfFieldOffenseofRobotSoccer (1.长沙理工大学;2瑚南信息职业技术学院)韦庆丹 1陈焕文 1,陈鹏慧 2蔡 琼 2 W EIQing-dan CHEN Huan-wen CHEN Peng—huiCAIQing 摘要:本文主要研究 了强化学习在机器人足球比赛半场进攻中的应用,机器人足球 比赛环境状态是一个连续的状态空间.利 用强化学习必须将状态空间离散化,文中利用给定的状态变量来描述坏境状态 为了克服机器人单独更新值函数 的缺点。采 用机器人之间通信的方式来更新所有进攻机器人的值 函数.最后将算法在 4~5的机器人比赛环境 中进行 了实验,取得 了理 想的效果 。 关键词:强化学习;半场进攻;机器人通信 中图分类号:TP181 文献标识码:A Abstract:Thisarticlemain introduce theapplicatiionofreinforcementlearningin halffieldoffensetorobotsoccer,the environment ofrobotsoccerisacontinuousstatespace,we should discretizethestateofenvironment,wedefinethestateusinga setofvariables. InordertoovercometheshortcomingoftheagentupdateQvalueindependent,weadoptcommunicationbetweenrobotstoupdateQ valueofalloffenseagent.Finallyweperform an experimentin4V5halffieldoffense,andgetan idealresult. Keywords:ReinforcementLearning;HalfFieldOffense;RobotCommunication 1引言 强化学习就是智能系统从环境到行为映射的学习。其显著 的特点就是机器人与环境的交互能力。通过获得的奖励或者惩 罚来调整机器人下一步的动作,最终获得最佳策略。强化学习既 可以用在机器人防守的时候.也可以用在进攻的时候.为了提高 比赛的观赏性.采用将强化学习方法用在进攻队员的策略中。本 图 1强化学习的基本模型 文将在 4V5的半场进攻中进行实验。环境中包括四名进攻队员, 强化学习不同于监督学习。这主要体现在奖赏信号上,在强 五名防守队员f包括守门员)。 化学习中,环境提供的即时奖赏r评价Agent选择动作好坏的 由于比赛环境状态是一个连续的状态,并且有多名队员,每 基准,并不是告诉Agent下一步如何去做。开始的时候,环境提供 个队员的学习都是比较困难的一个问题,为了解决这个问题。我 的信息很少,这就要求Agent必须不断尝试和学习,所以强化学 们采用机器人之间通信的方式让机器人进行学习,这样任何机 习是一种无监督在线学习方法,除了环境和Agent,强化学习还 包括下面3个主要要素: 器人在完成一次动作后,所有的进攻机器人都会立即更新值函 策略,是指 Agent可以选择的动作的集合,策略的好坏直 数。对于状态空间的描述.根据做实验时的一些经验。通过定义 接决定了Agent行为的整体性能。 了一些状态变量来进行描述。包括进攻机器人之间的距离、进攻 (b1奖赏函数,在Agent和环境交互的过程中,从环境得到的 机器人和

文档评论(0)

无敌 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档