人工智能21剖析.ppt

下载文档 降价啦

5
0
约2.83千字
约 19页
2016-12-02 发布于湖北
举报
保障服务

人工智能21剖析.ppt

人工智能　━━　一种现代方法云南大学施心陵讲授第二十一章强化学习强化(reinforcement)学习是指从环境状态到行为映射的学习，以使系统行为从环境中获得的累积奖励值最大。设计算法把外界环境转化为最大化奖励量的方式的动作。智能体通过看哪个动作的到最多的奖励来发现要做什么。智能体动作的影响不只是立即得到的奖励，而且还影响接下来的动作和最终的奖励。试错搜索(trial-and-error-search)和延期强化(delayed reinforcement)是强化学习的两个重要特性。强化思想最先来源于心理学研究，1911年Thorndike提出效果律. 强化学习最早可追溯到巴甫洛夫的条件反射实验。上世纪八十年代末强化学习才在人工智能、机器学习、自动控制等领域广泛研究和应用。试错学习：选择 + 联系搜索+记忆 1954年Minsky实现计算机上的试错学习，强化学习一词最早出现在Minsky论文“Steps Toward Artificial Intellegence”。 1969年Minsky获计算机图灵奖 1953年到1957年，Bellman提出求解最优控制问题的动态规划方法，同年还提出最优控制问题的随机离散版本，即马尔可夫决策过程，1960年Howard提出马尔可夫决策过程的策略迭代方法。

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

人工智能21剖析.ppt