《机器学习及其应用》书籍 第6章 强化学习-汪荣贵.pdfVIP

《机器学习及其应用》书籍 第6章 强化学习-汪荣贵.pdf

  1. 1、本文档被系统程序自动判定探测到侵权嫌疑,本站暂时做下架处理。
  2. 2、如果您确认为侵权,可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理,应急电话:400-050-0827。
  3. 3、此文档由网友上传,因疑似侵权的原因,本站不提供该文档下载,只提供部分内容试读。如果您是出版社/作者,看到后可认领文档,您也可以联系本站进行批量认领。
查看更多
《机器学习及其应用》汪荣贵等编著 机械工业出版社2019 年第1 版 第六章 强化学习 我们知道,机器学习是一种从经验数据中构造和改善模型的理论与方法,前述监督学习 和无监督学习主要以带标注或不带标注样本数据作为反映外部环境特征的经验数据。事实 上,除样本数据之外还可使用外部环境的反馈信息作为经验数据构造和改善模型,由此形成 一种名为强化学习的机器学习类型。强化学习又称为再励学习或评价学习,采用类似于人类 和动物学习中的试错机制,通过不断获取外部环境的反馈信息优化调整计算模型或动作行 为,实现对序贯决策问题的优化求解。由于外部环境反馈信息的形式和内容比样本数据更加 灵活广泛且可以在线获取,故强化学习具有非常广泛的应用前景,被认为是一种最接近人类 学习行为的学习方法。目前,强化学习已在机器人控制、汽车智能驾驶、人机交互、过程优 化控制、游戏博弈等多个领域得到了成功应用。本章主要介绍强化学习的基本理论和方法, 首先介绍强化学习的基础知识,包括强化学习的基本概念、马尔可夫模型和强化学习的基本 方式;然后比较系统地介绍若干基本强化学习方法,包括值迭代学习、时序差分学习和Q 学 习;最后简要介绍两种典型的示范强化学习方法,即模仿强化学习和逆向强化学习。 6.1 强化学习概述 强化学习主要通过不断获取外部环境反馈信息的方式实现对连续多步自动决策问题的 优化求解,所要解决的问题形式和所涉及的基本概念与前述监督学习和无监督学习方式都有 着较大差异。强化学习的具体过程主要是智能体与其外部环境之间进行不断地动态交互过 程,通常采用马尔可夫模型表示这种动态交互过程并通过策略迭代、值迭代和策略搜索等方 式进行优化计算,获得最优的连续性多步决策。本节主要介绍强化学习的基本概念和基本思 想,为读者进一步学习强化学习的基础理论和具体方法提供基本的知识支撑。首先介绍强化 学习的基本概念及若干基本术语,并将强化学习与监督学习进行对比分析;然后比较系统地 介绍用于强化学习的马尔可夫模型和马尔可夫决策过程;最后分别针对有模型和无模型的情 形分析讨论强化学习的基本求解思路和计算方式。 6.1.1 强化学习基本知识 在游戏博弈或对弈等很多应用场合需要连续进行多步决策才能完成任务,这种连续多步 的决策过程通常称之为序贯决策过程。例如,五子棋对弈游戏的目标是抢先让五颗同色棋子 连成一条直线,为此需要不断依次在合适位置落子,可将每次落子视为一次决策。这种通过 多次不断落子完成五子棋对弈的过程就是一个序贯决策过程。如何让计算机像人类一样能够 自动进行合理的序贯决策是人工智能领域需要解决的一个重要研究问题,通常称之为序贯 决策优化问题,简称为序贯决策问题。强化学习的目标是通过机器学习方式有效解决序贯决 策问题,或者说通过机器学习方式实现对连续多步自动决策问题的优化求解。 强化学习主要通过学习先验知识寻找最优决策过程,区别于监督学习以明确的样本标签 作为经验数据或先验知识并通过样本标签直接告诉模型该如何完成指定任务,强化学习使用 的经验数据或先验知识则较为模糊,通常是由智能体所处环境提供的某种反馈信息。这种反 1 《机器学习及其应用》汪荣贵等编著 机械工业出版社2019 年第1 版 馈信息的内容主要是对智能体当前某种行为或动作是好是坏的某种评价。若当前行为较好, 环境给予的反馈信息就是给予某种奖励或给予某种较高的奖励;反之,环境给予的反馈信息 就是给予某种惩罚或给予某种较低的奖励。对任意给定的智能体,如果该智能体所获得的累 计奖励越多则表明其行为策略越能满足任务要求。在强化学习过程中,智能体需要不断与其 所处外部环境进行交互获得反馈信息,只能通过不断尝试的方式去探索如何才能使得在当前 状态下的累计奖励值最大。图6-1 给出了强化学习的基本要素和基本流程。 环境 状态 奖励 动作

文档评论(0)

物语终焉 + 关注
实名认证
文档贡献者

北森文件密码:rshhbgee

1亿VIP精品文档

相关文档