- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
人工智能21
人工智能 ━━ 一种现代方法 云南大学 施心陵讲授 第二十一章 强化学习 强化(reinforcement)学习是指从环境状态到行为映射的学习,以使系统行为从环境中获得的累积奖励值最大。 设计算法把外界环境转化为最大化奖励量的方式的动作。智能体通过看哪个动作的到最多的奖励来发现要做什么。 智能体动作的影响不只是立即得到的奖励,而且还影响接下来的动作和最终的奖励。 试错搜索(trial-and-error-search)和延期强化(delayed reinforcement)是强化学习的两个重要特性。 强化思想最先来源于心理学研究,1911年Thorndike提出效果律. 强化学习最早可追溯到巴甫洛夫的条件反射实验。 上世纪八十年代末强化学习才在人工智能、机器学习、自动控制等领域广泛研究和应用。 试错学习:选择 + 联系 搜索+记忆 1954年Minsky实现计算机上的试错学习,强化学习一词最早出现在Minsky论文“Steps Toward Artificial Intellegence”。 1969年Minsky获计算机图灵奖 1953年到1957年,Bellman提出求解最优控制问题的动态规划方法,同年还提出最优控制问题的随机离散版本,即马尔可夫决策过程,1960年Howard提出马尔可夫决策过程的策略迭代方法。(强化学习的理论基础) 1972年Klopf把试错学习和时序差分结合。 1989年Waltins提出Q-学习方法 1992年Tesauro用强化学习成功应用到西洋双陆棋 强化学习模型 被动强化学习 直接效用估计 自适应动态规划(ADP) 时序差分学习(TD) ADP vs. TD TD调整一个状态使其和已观察到的后续状态一致; ADP调整一个状态使其和所有可能出现的后续状态一致。 TD对每个观察到的转移只进行单一调整,而ADP为了重建效用估计U和环境模型T之间的一致性会按所需尽可能多的调整,观察到的转移其影响在整个U中传递。TD为ADP的一阶近似。 主动强化学习 ADP贪婪智能体 学习到的模型和真实环境不同,因而学习到的模型的最优策略不是真实环境中的最优。 exploitation——exploration 探索函数 行动-价值函数 强化学习中的一般化 函数逼近: 联机学习 直接效用估计的联机学习: 强化学习的应用 策略搜索方法 0871-5031301 * * / 16 jhzhang@ynu.edu.cn 信 息 学 院 人工智能—— 一种现代方法 人工智能—— 一种现代方法 信 息 学 院 21.1 介绍 21.2 被动强化学习 21.3 主动强化学习 21.4 强化学习中的一般化 21.5 策略搜索 Psychology Control Theory and Operations Research Artificial Neural Networks Reinforcement Learning (RL) Neuroscience Artificial Intelligence 智能体根据策略选择一个行动执行,然后感知下一步的状体和即时奖励,通过经验再修改自己的策略。目标就是最大化长期奖励,以学习一个行为策略π:S-A. 强化学习技术基本思想:如果系统某个动作导致环境正的奖励,则系统以后产生这个动作的趋势就会加强;反之负的奖励将使产生该动作的趋势减弱。 被动学习:智能体的策略π固定,目标是学习该策略的效用函数Uπ(s)。(智能体被动接受各种信息) 主动学习:学习者给环境以扰动并观察扰动的后果。 +1 - 1 0.918 0.660 0.611 0.388 0.655 0.705 0.762 0.812 0.868 智能体应用策略π执行一组实验,每次从(1,1)开始,智能体经过一个状态转移序列到达终点。它感知的信息提供了当前状态以及在该状态获得的回报。 0.8 0.1 0.1 (1,1)-0.04? (1,2)-0.04? (1,3)-0.04? (1,2)-0.04? (1,3)-0.04? (2,3)-0.04? (3,3)-0.04? (4,3)+1 (1,1)-0.04? (1,2)-0.04? (1,3)-0.04? (2,3)-0.04? (3,3)-0.04? (3,2)-0.04? (3,3)-0.04? (4,3)+1 (1,1)-0.04? (2,1)-0.04? (3,1)-0.04? (3,2)-0.04? (4,2)-1 学习状态s的期望效用 状态的效用:指从该状态起的期望总回报。 直接效用估计:进行多次实验,记录每个状态所观察到的未来
文档评论(0)