人工智能 ━━ 一种现代方法 云南大学 施心陵讲授 第二十一章 强化学习 强化(reinforcement)学习是指从环境状态到行为映射的学习,以使系统行为从环境中获得的累积奖励值最大。 设计算法把外界环境转化为最大化奖励量的方式的动作。智能体通过看哪个动作的到最多的奖励来发现要做什么。 智能体动作的影响不只是立即得到的奖励,而且还影响接下来的动作和最终的奖励。 试错搜索(trial-and-error-search)和延期强化(delayed reinforcement)是强化学习的两个重要特性。 强化思想最先来源于心理学研究,1911年Thorndike提出效果律. 强化学习最早可追溯到巴甫洛夫的条件反射实验。 上世纪八十年代末强化学习才在人工智能、机器学习、自动控制等领域广泛研究和应用。 试错学习:选择 + 联系 搜索+记忆 1954年Minsky实现计算机上的试错学习,强化学习一词最早出现在Minsky论文“Steps Toward Artificial Intellegence”。 1969年Minsky获计算机图灵奖 1953年到1957年,Bellman提出求解最优控制问题的动态规划方法,同年还提出最优控制问题的随机离散版本,即马尔可夫决策过程,1960年Howard提出马尔可夫决策过程的策略迭代方法。
您可能关注的文档
- 上海交通大学物理化学热力学第一定律1讲义.ppt
- 人工气道管理剖析.ppt
- 上海交通大学物理化学热力学第二定律讲义.ppt
- 推动人类进步的科技革命答案.ppt
- 人工气道管理新进展剖析.ppt
- 上海交通大学热力学初步第二部分讲义.ppt
- 上海交通大学-流体力学讲义.ppt
- 推挽功率放大器答案.ppt
- 上海交通大学流体力学第一章讲义.ppt
- 托卡马克磁约束装置答案.ppt
- 《GB 25974.4-2026煤矿用液压支架 第4部分:电液控制系统技术条件》.pdf
- GB 25974.4-2026煤矿用液压支架 第4部分:电液控制系统技术条件.pdf
- 中国国家标准 GB/T 17737.215-2026同轴通信电缆 第1-215部分:环境试验方法 电缆的高温老化.pdf
- 《GB/T 17737.215-2026同轴通信电缆 第1-215部分:环境试验方法 电缆的高温老化》.pdf
- GB/T 17737.215-2026同轴通信电缆 第1-215部分:环境试验方法 电缆的高温老化.pdf
- 2020至2025年车工初级证历年真题汇总 含答案解析 备考专用.docx
- 05.施工便道临时用地占用耕地和永农论证报告.docx
- 2026高三语文复习第六讲 赏析句子的表达效果.pptx
- 2026高三生物复习模块一 第一单元 第5课时 核酸是遗传信息的携带者.pptx
- 2026高三语文复习第六讲 特色:故事有何吸引力、感染力?.pptx
最近下载
- 《电磁兼容原理与应用》全套教学课件.pptx
- Unit+4+Eat+Well+Section+A+1a-1d+课件+2024-2025学年人教版(2024)七年级英语下册++.pptx VIP
- V2G双向充换电设施接入电网典型电气接线.pdf VIP
- 2023年中国化学奥林匹克竞赛福建赛区预赛试题真题.pdf VIP
- 2025年中国化学奥林匹克竞赛福建预赛试题及答案_可搜索.pdf VIP
- 湖北省十一校2026 届高三第二次联考化学+答案.docx
- 马工程《刑事诉讼法》(第四版)第一章 课后思考题参考答案.pdf VIP
- 异型盖冲压模具设计.doc VIP
- 建设项目安全设施设计专篇.pdf VIP
- 教科版船的研究3.用沉的材料造船 五年级科学下册教学设计教案(教学反思全).docx VIP
原创力文档

文档评论(0)