网站大量收购独家精品文档,联系QQ:2885784924

9深度学习-第九章 强化学习.pptx

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第九章深度强化学习

第一节有限马尔科夫决策过程

深度强化学习深度强化学习技术是AlphaGo系列围棋机器人训练的核心技术深度强化学习技术是大模型最后微调的核心技术,典型应用包括ChatGPT和DeepSeekR1

9.1有限马尔科夫决策过程Agent:智能体Environment:环境智能体与环境进行序贯交互:trajectory(轨迹)如果将状态和回报视为随机变量,那么该轨迹可以用一个随机过程来描述,该随机过程为马尔科夫决策过程智能体与环境交互

9.1有限马尔科夫决策过程:马尔科夫性马尔科夫性:系统的下一个状态只与当前状态有关,与以前状态无关。定义:一个状态St是马尔科夫的,当且仅当:?当前状态蕴含所有相关的历史信息一旦当前状态已知,历史信息将会被抛弃

9.1有限马尔科夫决策过程:形式化定义马尔科夫性:带有决策和回报的马尔科夫过程。定义:马尔科夫决策过程由元组:描述??环境与回报转移模型随机变量的分布由条件概率定义:该条件概率描述了交互的动力学,是对状态的限制。状态转移概率:回报的期望:

9.1有限马尔科夫决策过程:策略与值函数一个策略是给定状态s时,动作集上的一个分布:??1.贪婪策略:2.策略:3.高斯策略:4.玻尔兹曼分布:

9.1有限马尔科夫决策过程:策略与值函数给定markov链:可分别计算累积回报由于状态转移概率和策略的随机性,因此折扣累积回报是随机变量。值函数的定义:在策略下,状态s的值函数定义为从状态出发,并采用策略的折扣积累回报的期望。行为值函数的定义:在策略下,在状态s,并采取动作a的行为值函数定义为,从状态出发,采用动作a与环境交互,之后采用策略所得到的折扣积累回报的期望。

9.1有限马尔科夫决策过程:最优策略与最优值函数最优状态值函数是指在所有策略中值最大的值函数,即:??最优状态-动作值函数是指在所有策略中值最大的值函数,即:??????贝尔曼最优化方程:??

9.1有限马尔科夫决策过程:最优策略与最优值函数最优状态值函数是指在所有策略中值最大的值函数,即:??最优状态-动作值函数是指在所有策略中值最大的值函数,即:??????贝尔曼最优化方程:??

《深度学习》第九章深度强化学习

第二节深度值函数强化学习郭宪南开大学人工智能学院

9.2深度值函数强化学习:Q学习算法行为值函数的学习:学到的行为值函数直接逼近最优行为值函数:最基本的数据单元:

9.2深度值函数强化学习:Q学习算法2.Repeat:给定起始状态s,并根据贪婪策略在状态s选择动作aRepeat(对于一幕的每一步)(a)根据贪婪策略在状态s_t选择动作a_t,得到回报r_t和下一个状态(b)(c)s=s’,a=a’Untils是终止状态Until所有的收敛?行动策略为贪婪策略目标策略为贪婪策略3.输出最终策略:?1.初始化?Qlearning算法伪代码

9.2深度值函数强化学习:DQN算法DQN网络1.神经网络的输入为连续的四帧图像2.值函数表示为卷积神经网络

9.2深度值函数强化学习:DQN算法(1)DQN利用卷积神经网络逼近行为值函数(2)DQN利用经验回放对强化学习过程进行训练(3)DQN设置了目标网络来单独处理时间差分算法中的TD偏差。

9.2深度值函数强化学习:DQN改进算法DDQNDQN设置了目标网络来单独处理时间差分算法中的TD偏差。目标网络为:DoubleDQN:Max操作会引入过优化问题两个值函数逼近网络,一个用来选择动作,一个用来评估值函数。

9.2深度值函数强化学习:DQN改进算法DQN利用经验回放对强化学习过程进行训练均匀采样到优先采样:DuelingNetwork:行为值函数网络分解为状态值函数和优势行为值函数:

9.2深度值函数强化学习:DQN改进算法DeepRecurrentQ-Network:PartialObservability部分可观马尔科夫决策过程DeepRecurrentQ-LearningforPartiallyObservableMDPs

9.2深度值函数强化学习:DQN改进算法Rainbow:CombiningImprovementsinDeepReinforcementLearning

《深度学习》第九章深度强化学习

第三节直接策略搜索

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档