《一种结合演示数据和演化优化的强化学习方法》.pdfVIP

下载本文档

16
0
约2.14万字
约 6页
2016-01-18 发布于河南
举报
版权申诉

《一种结合演示数据和演化优化的强化学习方法》.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

《一种结合演示数据和演化优化的强化学习方法》.pdf

ComputerEngineeringandApplications计算机工程与应用 2014，50(11) 115 一种结合演示数据和演化优化的强化学习方法宋拴，俞扬 SONG Shuan．YUYang 南京大学计算机软件新技术国家重点实验室，南京 210023 NationalKeyLaboratoryforNovelSoftwareTechnology，NanjingUniversity,Nanjing210023，China SONG Shuan，YU Yang．Reinforcementlearningmethodviacombiningdem onstrationdataandevolutionaryopti— mization．ComputerEngineeringandApplications，2014，50(11)：115-119． Abstract：Reinforcementlearningaimsatlearninganoptimalpolicythatmaximizesthelongterm rewards，from interac— tionswiththeenvironment．Sincetheenvironment~edbackscommonlydelayafterasequencesofactions，reinforcement learninghastotackletheproblem ofsearchinginahugepolicyspace，andthusaneffectivesearchisthekeytoaSuccess approach．Previousstudiesexplorevariouswaystoachieveeffectivesearchmethods，oneeffectivewayisemployingthe evolutionaryalgorithm asthesearchmethod，andanotherdirection isintroducinguserdemonstrationdatatoguidethe search．Inthiswork，itinvestigatesthecombinationofthetwodirections，andproposestheiNEAT+Qapproach，which trainsaneuralnetworkusingthedemonstrationdataaswellasintegratingthedemonstrationdataintothefitnessfunction ofrtheevolutionary algorithm．Preliminary empiricalstudyshowsthatiNEAT+Q issuperiortoNEAT+Q，whichisan classicalevolutionaryreinforcementlearningapproach． Keywords：reinforcementlearn ing；evolutionary algorithm ；learningrfom demonstrations；neuralnetwork 摘要：强化学习研究智能体如何从与环境的交互中学习最优的策略，以最大化长期奖赏。由于环境反馈的滞后性，强化学习问题面临巨大的决策空间，进行有效的搜索是获得成功学习的关键。以往的研究从多个角度对策略的搜索进行了探索，在搜索算法方面，研究结果表明基于演化优化的直接策略搜索方法能够获得优于传统方法的性能；在引入外部信息方面，通过加入用户提供的演示，可以有效帮助强化学习提高性能。然而，这两种有效方法的结合却鲜有研究。对用户演示与演化优化的结合进行研究，提出iNEAT+Q算法，尝试将演示数据通过预训练神经网络和引导演化优化的适应值函数的方式与演化强化学习方法结合。初步实验表明，iNEAT+Q较不使用演示数据的演化强化学习方法NEAT+Q有明显的性能改善。关键词：强化学．-j；演化算法；从演示中学．-j；神经网络文献标志码：A 中图分类号：TP181 doi：10．3778j／．issn．1002．8331．1305—0393 1 引言自动控制领域，将强化学习算法用于倒立摆问题，取得强化学习是机器学习的一个重要研究领域，它要解了优于手动设计传递函数的效果一。此外，