强化学习在机器人足球半场进攻中的应用.pdfVIP

下载本文档

7
0
约1.22万字
约 3页
2017-09-13 发布于河北
举报
版权申诉

强化学习在机器人足球半场进攻中的应用.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

网络与通信《微计算机信息)2011年第27卷第12期文章编号：1008—0570(2011)12—0104—02 强化学习在机器人足球半场进攻中的应用 ApplicationofReinforcementLearning inHalfFieldOffenseofRobotSoccer (1．长沙理工大学；2瑚南信息职业技术学院)韦庆丹 1陈焕文 1，陈鹏慧 2蔡琼 2 W EIQing-dan CHEN Huan-wen CHEN Peng—huiCAIQing 摘要：本文主要研究了强化学习在机器人足球比赛半场进攻中的应用，机器人足球比赛环境状态是一个连续的状态空间．利用强化学习必须将状态空间离散化，文中利用给定的状态变量来描述坏境状态为了克服机器人单独更新值函数的缺点。采用机器人之间通信的方式来更新所有进攻机器人的值函数．最后将算法在 4~5的机器人比赛环境中进行了实验，取得了理想的效果。关键词：强化学习；半场进攻；机器人通信中图分类号：TP181 文献标识码：A Abstract：Thisarticlemain introduce theapplicatiionofreinforcementlearningin halffieldoffensetorobotsoccer，the environment ofrobotsoccerisacontinuousstatespace，we should discretizethestateofenvironment，wedefinethestateusinga setofvariables． InordertoovercometheshortcomingoftheagentupdateQvalueindependent，weadoptcommunicationbetweenrobotstoupdateQ valueofalloffenseagent．Finallyweperform an experimentin4V5halffieldoffense，andgetan idealresult． Keywords：ReinforcementLearning；HalfFieldOffense；RobotCommunication 1引言强化学习就是智能系统从环境到行为映射的学习。其显著的特点就是机器人与环境的交互能力。通过获得的奖励或者惩罚来调整机器人下一步的动作，最终获得最佳策略。强化学习既可以用在机器人防守的时候．也可以用在进攻的时候．为了提高比赛的观赏性．采用将强化学习方法用在进攻队员的策略中。本图 1强化学习的基本模型文将在 4V5的半场进攻中进行实验。环境中包括四名进攻队员，强化学习不同于监督学习。这主要体现在奖赏信号上，在强五名防守队员f包括守门员)。化学习中，环境提供的即时奖赏r评价Agent选择动作好坏的由于比赛环境状态是一个连续的状态，并且有多名队员，每基准，并不是告诉Agent下一步如何去做。开始的时候，环境提供个队员的学习都是比较困难的一个问题，为了解决这个问题。我的信息很少，这就要求Agent必须不断尝试和学习，所以强化学们采用机器人之间通信的方式让机器人进行学习，这样任何机习是一种无监督在线学习方法，除了环境和Agent，强化学习还包括下面3个主要要素：器人在完成一次动作后，所有的进攻机器人都会立即更新值函策略，是指 Agent可以选择的动作的集合，策略的好坏直数。对于状态空间的描述．根据做实验时的一些经验。通过定义接决定了Agent行为的整体性能。了一些状态变量来进行描述。包括进攻机器人之间的距离、进攻 (b1奖赏函数，在Agent和环境交互的过程中，从环境得到的机器人和