- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第五章强化学习
本章目录
1
5.4强化学习的应用
5.1强化学习基础
5.2经典强化学习方法
5.3深度强化学习
本章目录
1
■强化学习的背景与发展
强化学习是机器学习中的一个重要分支,通过与环境的持续交互来学习一个最优策
略,使得智能体在给定的环境中能够最大化其累积奖励。
早期基础奠定阶段(20世纪50年代至80年代),伯尔赫斯·弗雷德里克·斯金纳的
操作性条件反射理论,被认为是强化学习的思想起源。
算法标准化阶段(20世纪80年代至21世纪初),研究者们开始探索更加系统和标准
化的强化学习算法。
深度强化学习阶段(2013年至至今),深度学习技术在推动众多人工智能领域发展
的同时,也为强化学习插上了飞跃的翅膀。
■强化学习的基本概念
强化学习讨论的问题是智能体怎么在复杂、不确定的环境中寻求最大化累积奖励的
策略。因此,智能体与环境自然而然地构成了强化学习的两个核心组成部分。在学习过程中,智能体与环境之间进行着持续的互动。
当智能体感知到环境中的某一状态,它将基于该状态产生一个动作。动作一旦在环
境中执行,环境将响应这一动作,并提供给智能体两个反馈:一是状态的转变,即新的状态;二是该动作所产生的即时奖励。
■强化学习的基本概念
强化学习中,主要有以下几个元素:
·智能体(Agent):主动学习和决策的实体。它观察环境状态,选择行动,并从环境中获得反馈(奖励),然后根据环境的反馈来优化自身的行为策略。
·环境(Environment):智能体所处并进行交互的外部世界,即与智能体交互的对象(包括除智能体以外的所有信息)。
·状态(State):环境在任何给定时间点的具体情况或配置。智能体对其所处的状态进行观测,并根据当前状态来做出决策,选择下一步的行动。
·动作(Action):智能体在给定状态下所采取的决策。动作会影响智能体转移到新的状态以及获得的奖励。
·奖励(Reward):智能体完成某个行动后,环境接收智能体的动作,用以评价行动的好坏,并返回新的状态和奖励。
智能体通过与环境不断进行交互来学习最
佳行为策略(Policy),评估所采取行动的好坏,并根据行动带来的结果来调整策略,最大化长期累积的奖励。于是,我们可以给出策略的定义,它表示从状态到行动的映射,代表智能体的决策规则。
■强化学习的基本概念
强化学习的过程是怎样的呢?
强化学习的目标之一是学习最优策略,即在给定状态下选择最佳行动的规则。
智能体
状态
学习范式
数据特点
实现方法
学习目标
反馈机制
应用场景
监督学习
需要大量的输入数据和对应的标签
具有明确的监督信息,学习如何根据输入预测输出
关注预测和分类
不涉及即时反馈
适用于有明确输出的任务
无监督学习
不需要标签数据
分析数据本身的特征,在没有标签的数据中发现结构和模式
关注模式发现和数据结构
不涉及即时反馈
适用于探索性数据分析和预处理
强化学习
取决于奖励信号的来源
在时序交互中产生数据,智能体通过与环境的交互学习一个策略,以最大化长期累积奖励
关注决策和优化
具有明确的奖励反馈机制
适用于需要连续决策和交互的环境
■强化学习的基本概念
强化学习与我们之前讲的各类学习范式有何异同呢?
表5-1监督学习、无监督学习与强化学习特点对比
■马尔可夫决策过程
强化学习中的智能体与环境的交互过程可以视为一个马尔可夫决策过程(Markov
DecisionProcess,MDP),它假设系统状态具有马尔可夫性质,即未来状态仅与当前状态有关,而与过去状态无关(无记忆性)。
一个标准的马尔可夫决策过程由以下五个部分组成:
●状态空间(StateSpace,S)
●动作空间动作空间(ActionSpace,A)
●转移概率(TransitionProbability,P)
●奖励函数(RewardFunction,R)
●策略(Policy,π)
·轨迹T=(S₁,a₁,…,St,at,…,ST,aT)
·t的概率
·总回报
·状态价值
■马尔可夫决策过程
■贝尔曼方程
贝尔曼方程(BellmanEquation),也被称为动态规划方程,是由美国数学家理查
德·贝尔曼(RichardBellman)提出的一种用于解决动态优化问题的数学工具,描述了在马尔可夫决策过程中状态价值函数和动作价值函数的递归关系,是理解和求解马尔可夫决策过程的关键。
其原理是一个状态的价值(即在该状态下所能获得的期
原创力文档


文档评论(0)