基于神经网络的批强化学习在Robocup中的应用.pdfVIP

下载本文档

5
0
约1.41万字
约 4页
2017-12-18 发布于河北
举报
版权申诉

基于神经网络的批强化学习在Robocup中的应用.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于神经网络的批强化学习在Robocup中的应用

第 l9卷第 7期计算机技术与发展 Vo1．19 No．7 2009年 7月 C()MPUTER TECHNOI』X；Y A D DEVFl』)PMENT l1． 2009 基于神经网络的批强化学习在 Robocup中的应用李龙澍一，葛瑞峰，一，王慧萍，2 (1．安徽大学计算机科学与技术学院，安徽合肥 230039； 2．安徽大学计算智能与信号处理教育部重点实验室，安徽合肥 230039) 摘要：模拟机器人足球比赛(RobotWorldCup，RoboCup)作为多智能体系统的一个通用的实验平台．通过它可以来检验各种理论、算法和框架等，已经成为人工智能的研究热点。针对在复杂条件下的使用传统Q学习方法所产生的收敛速度缓慢和泛化能力不强的问题，文中使用人工化能力，缩短了学习的时间。并最终将其运用到仿真组比赛的Keepaway模型中，以此验证了该方法的有效性。关键词：批Q一学习；神经网络；智能体；机器人足球比赛中图分类号：TP183 文献标识码：A 文章编号：1673—629X(2009)07—0098—04 ApplicationofBatchReinforcementLearningBasedonNN toRobocup LILong．shu ，一，GERui—feng，一，WANG Hui—ping ， (1．SchoolofComputerScienceandTechnology，AnhuiUniversity，Hefei230039，China； 2．MinistryofEducationKeyLab．ofICSPatAnhuiUniversity，Hefei230039，China) Abstract：Asarepresentativeexperimentalplatformofmulti—agentsystem，RoboCup(RobotwolrldCup)bywhichvarioustheories．a1． gorithmsandarchitecturescanbeevaluated，hasbecQ~etheresearchcenterofartificial intellignece．Fortheconvergeslowlyand time consumingproblme sarisedwhenuSingtheclassicQ～learningmethodinocmplicatedenvironment，lineANN torepresenttheQnetand thebatchQlearningtoprocessthetraining datagatherde fromtheenvironment．Bythesetactics，improvde thegeneralizationcapabilityof thesystem，naddecreasedthetimeCOSttolearn．ItWSSapplide totheexperimentoftheKeepawaynxxielsinthesimulationteam whose resultshowsthe validityofthe method． Keywords：batchQ—learning；rleu~ network；agent；RoboCup 0 引言传统 Q函数的实现方法主要是利用表格来表示 Q函 Robocup仿真组作为足球机器人比赛中的一项，数，通过查表获得最优 Q值 [．2J。当环境的状态集和无需硬件，提供了一个完全分布式控制、实时异步多智动作集较大时，Q表需要占用大量的内存空间，而且也能体的环境，很好地模拟了真实的足球机器人比赛环不具有泛化能力，这一缺点限制它在连续状态的环境境，从而为多智能体的智能控制和人工智能理论领域