- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络与通信 《微计算机信息)2011年第27卷第12期
文章编号:1008—0570(2011)12—0104—02
强化学习在机器人足球半场进攻中的应用
ApplicationofReinforcementLearning inHalfFieldOffenseofRobotSoccer
(1.长沙理工大学;2瑚南信息职业技术学院)韦庆丹 1陈焕文 1,陈鹏慧 2蔡 琼 2
W EIQing-dan CHEN Huan-wen CHEN Peng—huiCAIQing
摘要:本文主要研究 了强化学习在机器人足球比赛半场进攻中的应用,机器人足球 比赛环境状态是一个连续的状态空间.利
用强化学习必须将状态空间离散化,文中利用给定的状态变量来描述坏境状态 为了克服机器人单独更新值函数 的缺点。采
用机器人之间通信的方式来更新所有进攻机器人的值 函数.最后将算法在 4~5的机器人比赛环境 中进行 了实验,取得 了理
想的效果 。
关键词:强化学习;半场进攻;机器人通信
中图分类号:TP181 文献标识码:A
Abstract:Thisarticlemain introduce theapplicatiionofreinforcementlearningin halffieldoffensetorobotsoccer,the environment
ofrobotsoccerisacontinuousstatespace,we should discretizethestateofenvironment,wedefinethestateusinga setofvariables.
InordertoovercometheshortcomingoftheagentupdateQvalueindependent,weadoptcommunicationbetweenrobotstoupdateQ
valueofalloffenseagent.Finallyweperform an experimentin4V5halffieldoffense,andgetan idealresult.
Keywords:ReinforcementLearning;HalfFieldOffense;RobotCommunication
1引言
强化学习就是智能系统从环境到行为映射的学习。其显著
的特点就是机器人与环境的交互能力。通过获得的奖励或者惩
罚来调整机器人下一步的动作,最终获得最佳策略。强化学习既
可以用在机器人防守的时候.也可以用在进攻的时候.为了提高
比赛的观赏性.采用将强化学习方法用在进攻队员的策略中。本 图 1强化学习的基本模型
文将在 4V5的半场进攻中进行实验。环境中包括四名进攻队员, 强化学习不同于监督学习。这主要体现在奖赏信号上,在强
五名防守队员f包括守门员)。 化学习中,环境提供的即时奖赏r评价Agent选择动作好坏的
由于比赛环境状态是一个连续的状态,并且有多名队员,每 基准,并不是告诉Agent下一步如何去做。开始的时候,环境提供
个队员的学习都是比较困难的一个问题,为了解决这个问题。我 的信息很少,这就要求Agent必须不断尝试和学习,所以强化学
们采用机器人之间通信的方式让机器人进行学习,这样任何机 习是一种无监督在线学习方法,除了环境和Agent,强化学习还
包括下面3个主要要素:
器人在完成一次动作后,所有的进攻机器人都会立即更新值函
策略,是指 Agent可以选择的动作的集合,策略的好坏直
数。对于状态空间的描述.根据做实验时的一些经验。通过定义
接决定了Agent行为的整体性能。
了一些状态变量来进行描述。包括进攻机器人之间的距离、进攻
(b1奖赏函数,在Agent和环境交互的过程中,从环境得到的
机器人和
您可能关注的文档
- 浅谈中专学生逆反心理.pdf
- 浅谈朱自清散文华美的艺术意境.pdf
- 浅谈庄子的入世与出世.pdf
- 浅谈最大诚信原则在海上保险合同中的运用.pdf
- 浅析1.5MW风电机组基础施工技术措施.pdf
- 浅析“美国梦”幻灭的深层原因.pdf
- 浅析“四大工程”背景下基层统计数据质量控制体系.pdf
- 浅析马克思主义发展观.pdf
- 浅析蒙医药治疗肿瘤病的方法.pdf
- 浅析民族地区法律实效问题——对恩施自治州村民自治制度实施基本状况的调查研究.pdf
- 强化学校自我评价,提高督导效能——英国学校督导评价最新发展趋势.pdf
- 强化胰岛素治疗对ICU老年脓毒症患者预后的影响.pdf
- 强化组织领导 完善工作机制 全力推进网点建设管理工作迈上新台阶——全省农行网点建设工作推进会议综述.pdf
- 强奸创伤综合症专家证据在美国刑事司法中的引入及其启示.pdf
- 强力霉素对兔经皮腔内血管成形术后内膜增生的抑制作用.pdf
- 强力推进治庸问责工作奋力推动湖北科学发展、跨越式发展.pdf
- 强势参与者和弱势参与者群体的随机LQ博弈.pdf
- 强震作用下大跨度拱形立体桁架结构动力失效机理研究.pdf
- 强直性脊柱炎FcRL基因与环境暴露因素交互作用研究.pdf
- 强制隔离戒毒工作标准化问题研究.pdf
最近下载
- 03 八年级上册(下)-部编版初中语文文言文对比阅读(解析版).docx VIP
- 寿光模式课件.pptx
- (高清版)DG∕TJ 08-2038-2021 建筑围护结构节能现场检测技术标准.docx VIP
- 苏少版四年级上册音乐 2.2丰收之歌 打麦号子 课件(共21张PPT)(含音频+视频).ppt VIP
- Siemens西门子工业SINUMERIK Integrate Create MyHMI 3GL (安装) SINUMERIK Integrate Create MyHMI 3GL (安装)使用手册.pdf
- 产业园物业管理的重点和难点.docx VIP
- 大学竞选心理委员ppt模板.pptx VIP
- 2025年南京市中考语文试题卷(含答案解析).docx
- 药物疗法 口服给药法(基础护理课件).pptx
- 2025年京东常温奶行业白皮书doc.docx VIP
文档评论(0)