2013开题报告原稿 .docVIP

下载本文档

1
0
约 7页
2017-01-02 发布于北京
举报
版权申诉

2013开题报告原稿 .doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

摘要随着智能系统日新月益的发展和使用，其对未知环境的适应性就成为迫切需求。而使机器能够从未知环境学习是实现人工智能的一大突破。目前的机器学习技术主要分为监督学习、非监督学习和强化学习三大类。其中强化学习是一种以环境反馈作为输入的，特殊的、适应环境的学习。它将环境抽象成若干状态，通过不断试错强化而产生状态到行为的最优化映射。然而实际环境的状态数无限或连续或状态不完全可知，因此很难以用数学模型精确定义系统。加上强化学习算法的收敛性较慢，因此如何能够优化的建立环境模型，如何提高算法效率就成为强化学习面临的主要问题。本次论文首先介绍强化学习的概念、建立系统模型，再介绍几种经典的强化学习算法，接着介绍目前解决若干问题而提出的POMDP模型，PSR 模型、HRL模型，最后就PSR模型提出一种新的算法。关键词：强化学习；蒙特卡诺法；TD算法；Q学习；Sasar学习；POMDP模型；PSR模型；HRL模型强化学习技术是从控制理论、统计学、心理学等相关学科发展而来的，最早可追溯到巴普洛夫的条件反射实验。但直到20世纪80年代末90年代初，强化学习技术才在人工智能、机器学习和自动控制等领域中得到广泛的研究和应用，并被认为是设计智能系统的核心技术之一。特别是随着强化学习的数学基础研究取得突破性进展以后，对强化学习的研究和应用日益开展起来，成为目前机器学习领域的研究热点之一。强化学习的理论基础： 1.强化学习问题的框架：强化学习将学习当作是一个不断试探并评价的过程。我们将有智能的学习体称为agent，将系统分成若干个状态，每个状态S可以有不同的动作选择，对应的每个选择也就有一个值函数Q（s,a）。Agent选择一个动作a作用于环境，环境接收该动作后状态发生变化(S’)，同时产生一个强化信号r（奖赏）给agent，agent根据这个奖赏评价刚才的动作的好坏进而修改该动作值，并选择下一动作a’。对于一个强化学习系统来讲，其目标是学习一个行为策略：π：S-A，使系统选择的动作能够获得环境奖赏的累计值Σr最大。当一个动作导致环境给正的奖赏时这种动作的趋势就被加强，反之则减弱。强化学习的目的就是要学习从状态到动作的最佳映射，以便使奖励信号最大化。【10，11】这和生理学中的条件反射原理是接近的。强化学习的框架如图： 2.环境的描述：通常，我们从五个角度对环境进行分析：【4】角度一：离散状态vs连续状态角度二：状态完全可感知vs状态部分可感知角度三：插曲式vs非插曲式角度四：确定性vs不确定性角度五：静态vs动态其中的插曲式是指智能系统在每个场景中学习的知识对下一场景中的学习是有用的。确定性是指状态在选择动作后迁移是确定的，而不是依赖某种概率。进一步，如果状态迁移的概率是不变的则是静态环境，否则为动态环境。在强化学习中，我们首先考虑最简单的环境模型随机、离散状态、离散时间对其数学建模。我们通常用马尔科夫模型：马尔科夫状态：一个状态信号保留了所有的相关信息，则就是马儿科夫的。马儿科夫决策过程（MDP）【2】：由四元组S,A,R,P定义。包含一个环境状态集S，系统行为集合A，奖赏函数：S×A-R和状态转移函数P：S×A-PD（S）。记R(s,a,s’)为系统在状态s采用a动作使环境状态转移到s’获得的瞬时奖赏值；记P(s,a,s’)为系统在状态s采用动作a使环境转移到s’的概率。MDP的本质是：当状态向下一状态转移的概率和奖赏值只取决于当前状态和选择的动作，而与历史状态和动作无关。强化学习主要研究在P和R函数未知的情况下系统如何学习最优的行为策略。用rt+1表示t时刻的即时奖赏【7】，用Rt表示t时刻的累计奖赏，则Rt为t时刻开始到最后的所有奖赏和，而越后续的动作对当前影响要比t时刻奖赏逐渐减小，因此越往后的奖赏加上了一个折扣γ，这样，t时刻的奖赏总和就是 Rt=rt+1+γrt+2+γ2rt+3+… =rt+1+γRt+1 （1） t时刻状态s的状态值（表示状态s如何优秀）用Vπ(s)表示，它用t时刻选择各个动作的奖赏的数学期望来表示。 Vπ(s)=Eπ{Rt|st=s} =Eπ{rt+1+γV(st+1)|st=s} =Vπ(s’)] （2）注意到这里两式都是一个递推式，称为Bellman等式，写成这种形式非常便于从状态s转换到s’时计算状态值。强化学习问题是要寻求一个最优的策略π*，在上面的等式中表现为寻求状态值的最优值，在不断学习强化的过程中对状态s获得一个最优值V*（s），它表示在状态s下选取最优的那个动作而获得的最大的累计奖赏回报。因此在最优策略π