《深度学习》课件第9章-深度强化学习.pptx

下载文档

5
0
约6.77千字
约 31页
2025-04-10 发布于山东
举报
版权申诉
保障服务

《深度学习》课件第9章-深度强化学习.pptx

1、本文档共31页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

汇报人:100871单击此处添加文本9深度强化学习

目录|CONTENTS强化学习基本概念1深度价值学习2深度策略学习3模仿学习4基于人类反馈的强化学习5

强化学习基本概念1

9.1.1强化学习基础框架受生物的环境适应性启发，强化学习是一种通过与环境交互并使用尝试和错误方法来最大化累积奖励，从而学习最优策略的技术。强化学习模型由五个关键元素构成，包括智能体(agent)、状态(state)、奖励(reward)、动作(action)和环境(environment)。在强化学习的框架中，算法称之为agent，它与环境（environment）发生交互，agent从环境中获取状态（state），并决定要做出的动作（action），环境会根据自身的逻辑给agent予以奖励（reward）。强化学习的定义强化学习的构成要素

9.1.1强化学习基础框架强化学习的特点：

①强化学习的奖励可能是稀疏且合理延迟的，不要求（或要求较少）先验知识，不要求有提供正确答案的教师；②强化学习是一种增量式学习，可以在线使用；③强化学习可以应用于不确定性环境；④强化学习的体系可扩展。强化学习的主体是智能体（agent）和环境（environment）。agent的主要目标是最大化未来产生的总奖励的可能性以适应环境。agent根据历史的动作选择，和选择动作之后，环境做给出的反馈和状态，决定如何选择下一个动作。如果某个动作（action）已经产生了积极的奖励，那么该动作将会被强化，否则将会被逐渐减弱。智能体与环境的交互

9.1.2强化学习关键要素01策略策略根据状态决定行动，目标是找到使回报期望最大化的最优策略。可以分为随机策略和确定策略：（1）随机策略：把状态记作S或s，动作记作A或a，随机策略函数π:S×A→[0,1]是一个概率密度函数:（2）确定策略：确定策略记作μ:S→A，它把状态s作为输入，直接输出动作a=μ(s)，而不是输出概率值。对于给定的状态s，做出的决策a是确定的，没有随机性。可以把确定策略看做随机策略的一种特例，即概率全部集中在一个动作上:02回报回报是未来奖励的总和，通常考虑折扣回报以处理未来不确定性，也叫做累计奖励(cumulativefuturereward)。强化学习的目标就是寻找一个策略，使得回报的期望最大化。这个策略称为最优策略(optimumpolicy)。

9.1.3马尔可夫决策过程定义9.1：马尔可夫性马尔可夫决策过程是强化学习中的序列决策模型，强调当前决策只基于当前状态，常用于智能体策略优化。设为一随机过程，E为其环境，若对任意的，任意的，随机变量在已知变量之下的条件分布函数只与有关，而与无关，即条件分布函数满足等式，即，此性质称为马尔可夫性，亦称无后效性或无记忆性。若为离散型随机变量，则马尔可夫性亦满足等式。

9.1.3马尔可夫决策过程定义9.2：马尔可夫过程若随机过程满足马尔可夫性，则称为马尔可夫过程。马尔科夫决策过程（markovdecisionprocess，MDP）根据环境是否可感知的情况，可分为完全可观测MDP和部分可观测MDP2种。马尔科夫决策过程是一个在环境中模拟智能体的随机性策略与回报的数学模型，通过六元组表示，若转移概率函数和回报函数与决策时间无关，这时的MDP称为平稳MDP。MDP有3种类型决策优化目标函数：有限阶段总回报目标、无限折扣总回报目标和平均回报目标，分别为：

9.1.3马尔可夫决策过程MDP模型由环境状态空间、系统动作空间、条件转移概率、奖励函数、折扣因子和决策优化目标函数六个基本元素构成，这些元素共同描述了智能体在环境中的决策过程。MDP模型具有无后效性、状态转移概率和奖励函数、折扣回报、策略、价值函数和最优策略等特点，这些特点使得MDP模型能够有效地模拟智能体在环境中的决策过程。MDP模型在强化学习、控制理论、运筹学等领域有广泛应用，是理解和设计智能决策系统的基础工具之一，通过最大化期望累积奖励来指导智能体的学习和决策。MDP模型的基本元素MDP模型的特点MDP模型的应用

A和P共同定义了系统的动作空间及状态转移概率，即在特定状态下采取某一动作后达到新状态的可能性。在六元组表示中，S代表有限的环境状态空间，它是智能体决策过程中可能遇到的各种情况的集合，为系统提供了操作的背景和上下文。立即回报rs，a和决策优化目标函数J指导智能体评估行动的价值

您可能关注的文档

文档评论（0）

balala11 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

《深度学习》课件第9章-深度强化学习.pptx