分层强化学习算法及其应用研究-计算机应用技术专业论文.docx

下载文档 降价啦

0
0
约12.91万字
约 128页
2018-11-28 发布于上海
举报
版权申诉
保障服务

分层强化学习算法及其应用研究-计算机应用技术专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

分层强化学习算法及其应用研究-计算机应用技术专业论文

啊!4441!她学位论文版权使用授权书本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特授权北京交通大学可以将学位论文的全部成部分内容编入有关数据库进行检索，并采用影印、缩印成扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家布关部门成机构送交论文的复印件和磁盘， (保密的学位论文在解密厨适用本授权说明〉飞/、学位论文作者签名:开子导鹏签字日期 :2(101年/立月 30日中阁分类号: TP18 UDC: 学校代码: 10004 密级:公开北京交通大学博士学位论文分层强化学习算法及其应用研究 Research on Hierarchy Reinforcement Leaming Algorithm and Its Application 作者姓名:郑宇导师姓名:罗四维学位类别:工学学号:职称:教授学位级别:博士学科专业:计算机应用技术研究方向:机器学习北京交通大学 2009 年 12 月致谢值此论文完成之际，谨向多年来一直精心指导和培挥我的导师罗四维教授致以最诚挚的谢意!自从残攻读博士学位以来，他渊博的知识和对科学研究的敏锐洞察力，引导我逐步深入的研究，本论文正是在他的精心指导下完成的。他严谨的治学态度、活跃并富有哲理的思维方式、诲人不倦的敬业精神、忘我的工作热情和对科学永无止境的追求精神，都给我了潜移默化的影响，对我今后的工作和学习将有非常大的影响和推动作用。在此论文的选题、修改直至定稿的一系列过程中，罗老师不但投入了大量的时间和精力，给予了耐心细致的指导，而且不断地为我创造良好的工作条件和研究环境。在此，对罗老师的悉心指导和亲切关怀表示最诚挚的谢意。同时，我要特别感谢实验室的杨坚、吕子昂博士，他们与我在课题上的有益探讨使我受益匪浅。感谢邹琪、廖灵芝、田媚、黄雅平、刘蕴辉、杨树忠、王娇、钟晶晶的热情帮助。他们开朗活泼的性格和踏实肯干的工作作风，使珑们这个集体工作时积极努力，闲暇时充满欢歌笑话。感谢你们所营造的温暖、积极向上的科研筑阁，感谢你们在挠求学期间对我的关心和帮助。在我的博士学习与研究生活中，我的父母和亲人一直给予我毫无保留的支持与鼓励，他们的关爱是支持我在求学道路上不断努力前进的动力。感谢我的父母对我含辛茹苦的培育，是他们的爱和奉献让我能够不断战胜学习和生活中的重重困难。此时此刻，无论以怎样的词语都无法表达我对他们的敬意和爱意。最后，谨以此文献给我的妻子吴丽娜。她总是在我最失意的时候给挽最温馨的理解、支持和鼓励，并赋予我不断进取的精神动力。她还不厌其烦地阅读我的论文，帮我修改其中的错字病句，使我能够更好地完成研究论文。在此对我的爱妻所作的巨大牺牲和奉献表示最诚挚的谢意。她是我一生最大的收获，我将对她钟爱一生，用我无尽的爱来凹报她。 3 摘要摘要强化学习是人工智能和机器学习的一个重要研究领域。强化学习采用试错的方式与环境进行交丑，根据环境对动作的评价性反馈信号改进行动方寐以适应环境。强化学习具有良好的在钱自适应性和对非线性系统的学习能力，因此在人工智能、机器学习和自动控制等领域中得到广泛研究和应用.但是在具有大规模收态空间或连续状态空间的任务中，强化学习也存在着学习效率低，收敛速度慢的问题。二十世纪九十年代提出的分层强化学习是提高强化学习的收敛速度的一种有效方法。而且分层强化学习的子任务策略可以复用，这一特点使得知识传递成为强化学习的当前研究热点，本文主要研究分层强化学习以及分层强化学习的知识传递方法。研究内容包括两大部分:第…部分主要研究如何改进分层强化学习，加快算法在单个任务中的收敛速度。第二部分主要研究在状态转移概率与系统参数相关的任务中，分层强化学习如何有效获得与参数无关的知识，用知识传递加快算法在多个任务中的收敛速度。本文的主要研究工作和创新性体现在以下三个方面: 第一，提出一种基于稳定状态空间的强化学习算法，通过减少所需探索和学习的状态空间来提高强化学习的收敛速度。为获得系统局部稳定状态费间的最优策略，提出…种状态预评估准则，并且修正算法的报酬信号，保证稳定状态费阔的状态能独立收敛。为将探索过程集中于稳定状态空间中，提出基于状态预评估准则和动作连续性准则的探索策略。算法的学习时间仅随局部稳定状态常间的增加呈指数增长，因此有效地缓解了强化学习的维数灾难问题。将算法用于实际系统控制时，本文发现在倒立摆系统拉制任务中，强化学习存在极限环问题，算法的控制策略不稳定。提出基于平衡状态的极限环检测方法，解决强化学习的极限环问题。本文算法能获得稳定的控制策略，为分层强化学习进一步获取知识提供了基础。第二，提出…种基于定性模型的分层 Op