人工智能21.pptVIP

下载本文档

4
0
约2.83千字
约 19页
2016-08-16 发布于湖北
举报
版权申诉

人工智能21.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

人工智能21

人工智能　━━　一种现代方法云南大学施心陵讲授第二十一章强化学习强化(reinforcement)学习是指从环境状态到行为映射的学习，以使系统行为从环境中获得的累积奖励值最大。设计算法把外界环境转化为最大化奖励量的方式的动作。智能体通过看哪个动作的到最多的奖励来发现要做什么。智能体动作的影响不只是立即得到的奖励，而且还影响接下来的动作和最终的奖励。试错搜索(trial-and-error-search)和延期强化(delayed reinforcement)是强化学习的两个重要特性。强化思想最先来源于心理学研究，1911年Thorndike提出效果律. 强化学习最早可追溯到巴甫洛夫的条件反射实验。上世纪八十年代末强化学习才在人工智能、机器学习、自动控制等领域广泛研究和应用。试错学习：选择 + 联系搜索+记忆 1954年Minsky实现计算机上的试错学习，强化学习一词最早出现在Minsky论文“Steps Toward Artificial Intellegence”。 1969年Minsky获计算机图灵奖 1953年到1957年，Bellman提出求解最优控制问题的动态规划方法，同年还提出最优控制问题的随机离散版本，即马尔可夫决策过程，1960年Howard提出马尔可夫决策过程的策略迭代方法。（强化学习的理论基础） 1972年Klopf把试错学习和时序差分结合。 1989年Waltins提出Q-学习方法 1992年Tesauro用强化学习成功应用到西洋双陆棋强化学习模型被动强化学习直接效用估计自适应动态规划（ADP）时序差分学习（TD） ADP vs. TD TD调整一个状态使其和已观察到的后续状态一致； ADP调整一个状态使其和所有可能出现的后续状态一致。 TD对每个观察到的转移只进行单一调整，而ADP为了重建效用估计U和环境模型T之间的一致性会按所需尽可能多的调整，观察到的转移其影响在整个U中传递。TD为ADP的一阶近似。主动强化学习 ADP贪婪智能体学习到的模型和真实环境不同，因而学习到的模型的最优策略不是真实环境中的最优。 exploitation——exploration 探索函数行动-价值函数强化学习中的一般化函数逼近：联机学习直接效用估计的联机学习：强化学习的应用策略搜索方法 0871-5031301 * * / 16 jhzhang@ynu.edu.cn 信息学院人工智能—— 一种现代方法人工智能—— 一种现代方法信息学院 21.1 介绍 21.2 被动强化学习 21.3 主动强化学习 21.4 强化学习中的一般化 21.5 策略搜索 Psychology Control Theory and Operations Research Artificial Neural Networks Reinforcement Learning (RL) Neuroscience Artificial Intelligence 智能体根据策略选择一个行动执行，然后感知下一步的状体和即时奖励，通过经验再修改自己的策略。目标就是最大化长期奖励，以学习一个行为策略π：S-A. 强化学习技术基本思想：如果系统某个动作导致环境正的奖励，则系统以后产生这个动作的趋势就会加强；反之负的奖励将使产生该动作的趋势减弱。被动学习：智能体的策略π固定，目标是学习该策略的效用函数Uπ(s)。（智能体被动接受各种信息）主动学习：学习者给环境以扰动并观察扰动的后果。 +1 - 1 0.918 0.660 0.611 0.388 0.655 0.705 0.762 0.812 0.868 智能体应用策略π执行一组实验，每次从(1,1)开始，智能体经过一个状态转移序列到达终点。它感知的信息提供了当前状态以及在该状态获得的回报。 0.8 0.1 0.1 (1,1)-0.04? (1,2)-0.04? (1,3)-0.04? (1,2)-0.04? (1,3)-0.04? (2,3)-0.04? (3,3)-0.04? (4,3)+1 (1,1)-0.04? (1,2)-0.04? (1,3)-0.04? (2,3)-0.04? (3,3)-0.04? (3,2)-0.04? (3,3)-0.04? (4,3)+1 (1,1)-0.04? (2,1)-0.04? (3,1)-0.04? (3,2)-0.04? (4,2)-1 学习状态s的期望效用状态的效用：指从该状态起的期望总回报。直接效用估计：进行多次实验，记录每个状态所观察到的未来