1强化学习介绍.ppt

下载文档 降价啦

28
0
约3.86千字
约 30页
2016-11-28 发布于重庆
举报
版权申诉
保障服务

1强化学习介绍.ppt

1、本文档共30页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

1强化学习介绍

强化学习的基本要素环境模型模拟了环境的行为，即给定一个状态和动作，模型可以预测必定导致下一个状态和下一个奖赏。模型一般用于规划。规划是算出来的，强化学习是试出来的。将模型和规划结合到强化学习是一个新进展，也是我们学习研究的重要内容。强化学习介绍本书中所有强化学习方法围绕估计值来组织，但这不是解决强化学习问题所必须的。直接在策略空间中搜索而不利用值函数的方法称为进化方法。适合用在策略空间比较小或者策略空间被构造地很好地情况下。例子：Tic－Tac－Toe 初始 1→0.5 2→0.5 3→0.5 4→0.5 。。。 39 →0.5 当前 1→0.5 2→0.5 3→0.5 S 4→0.5 。。。 100→1 S’ 。。。 39 →0.5 不断对弈，不断更新估计例子：Tic－Tac－Toe 更新贪心走棋之前的状态s：例子：Tic－Tac－Toe 强化学习关键特征学习时与环境交互（本例中与对手交互）有一个清晰的目标强化学习历史主要有两条线路一条线路关注试错学习，以动物心理学为起点。（贯穿人工智能早期）另一条线路关注最优控制问题以及使用值函数和动态规划的解决方案。强化学习历史最优控制描述的问题是如何设计一个控制器来随时间而最小化动态系统的行为计量一个解决这个问题的方法是使用动态系统中状态和值函数的概念来定义一个函数方程，即贝尔曼方程。用贝尔曼方程来解决最优控制问题的就是动态规划。强化学习历史另一条路以试错学习为中心。改变动作选择的趋向是根据动作结果好坏来决定的。强化学习历史围绕以上两条路产生了第三条路，即时间差分方法。三条路线整合起来形成现代强化学习。婴儿玩耍时没有老师指导动作，开车谈话时意识到环境对我们所做事情的反应。 * 即agent通过与环境交互而达到目标，小牛羚在出生后几分钟内挣扎着站起来。半小时后，每小时能跑几十公里。教育超市老板发现电话充值卡不怎么好卖了，决定以后少进货。多做好的动作，少做不好的动作。 * 当前看起来好的动作，长远来看，未必好。当前看起来不好的动作，长远来看，未必不好。 * * 策略在某种意义上是强化学习的核心，策略可以决定行为。策略可以是随机的。 * agent唯一的目标就是最大化在长期运行过程中收到的总奖赏。奖赏函数也是可以随机的。例如，一个策略选择动作带来的奖赏较小，则策略就可能在将来选择其他动作。 * 一个状态可能会得到一个低的直接奖赏但拥有较高的值，我们选择带来最高值的动作而不是带来最高奖赏的动作。然而，确定值比确定奖赏难得多。因为值需要从agent整个生命周期中估计。 * * 遗传算法、遗传程序设计等其他函数优化方法等搜索方法都用于解决强化学习问题，这些方法直接在策略空间中搜索而没有利用值函数，通过一种有技巧的行为产生个体。进化方法无视了强化学习中许多有用的结构：没有考虑所搜索的策略是一个从状态到动作的函数，也没有注意到agent在生命周期中经过的状态和选择的动作。因此，在极少数情况下信息可能有误导性 * 采用时间差分方法最终会收敛到这个游戏的一个最优策略。与进化方法相比，进化方法保持固定策略并多次与对手实验，其获胜的频率就是策略获胜的概率。但是进化方法只用到最终结果，游戏过程中发生的事情呗忽略了， * * * 若引入最优控制的离散版本，就是马尔可夫决策过程（MDPs） DP是解决一般随机最优控制问题的唯一可行方法。但随着状态数量增加，计算量会呈指数级增长。但任然比其他方法有效、且适用性更广。 * 强化学习介绍简介一种能够让机器解决科学或经济方面学习问题的设计方案，并通过数学分析或计算实验来评估的方法称为强化学习。从交互中进行，以目标为导向。强化学习介绍学习者不被告知采取哪个动作，而是通过尝试来发现获得最大奖赏的动作。 agent必须尝试各种动作，并且渐渐趋近于那些表现最好的动作，以达到目标。强化学习介绍监督学习是从样例中学习，样例是由富有知识的外部监督者提供的。这是一种重要的学习方法，但是它不能单独地用于交互学习。强化学习没有外部指导者，是在交互中，从自身经验中学习。强化学习挑战学习者必须尝试各种动作，并且渐渐趋近于那些表现最好的动作，以达到目标。尝试各种动作即为试错，也称为探索趋近于好的动作即为强化，也称为利用探索与利用之间的平衡，是强化学习的一个挑战。探索多了，有可能找到差的动作，探索少了，有可能错过好的动作。总体趋势：探索变少，利用变多监督学习中根本就不存在探索和利用的平衡问题，样例学习阶段之后，就只有利用了。例子一个机器人决定：1、进入一个新房间去寻找更多垃圾，2、寻找一条