人工智能21剖析.ppt

人工智能 ━━ 一种现代方法 云南大学 施心陵讲授 第二十一章 强化学习 强化(reinforcement)学习是指从环境状态到行为映射的学习,以使系统行为从环境中获得的累积奖励值最大。 设计算法把外界环境转化为最大化奖励量的方式的动作。智能体通过看哪个动作的到最多的奖励来发现要做什么。 智能体动作的影响不只是立即得到的奖励,而且还影响接下来的动作和最终的奖励。 试错搜索(trial-and-error-search)和延期强化(delayed reinforcement)是强化学习的两个重要特性。 强化思想最先来源于心理学研究,1911年Thorndike提出效果律. 强化学习最早可追溯到巴甫洛夫的条件反射实验。 上世纪八十年代末强化学习才在人工智能、机器学习、自动控制等领域广泛研究和应用。 试错学习:选择 + 联系 搜索+记忆 1954年Minsky实现计算机上的试错学习,强化学习一词最早出现在Minsky论文“Steps Toward Artificial Intellegence”。 1969年Minsky获计算机图灵奖 1953年到1957年,Bellman提出求解最优控制问题的动态规划方法,同年还提出最优控制问题的随机离散版本,即马尔可夫决策过程,1960年Howard提出马尔可夫决策过程的策略迭代方法。

文档评论(0)

1亿VIP精品文档

相关文档