强化学习 课件 第6章 策略梯度法.pptx

强化学习 课件 第6章 策略梯度法.pptx

  1. 1、本文档共36页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第六章策略梯度法北京大学余欣航

目录策略梯度的思想REINFORCE算法(vanillapolicygradient)REINFORCE算法的改进案例:利用策略梯度算法求解小车上山问题

策略梯度的思想

强化学习算法分类强化学习算法基于模型无模型蒙特卡罗方法—时间差分方法—基于价值on-policy—Sarsaoff-policy—Q-learningDQN神经网络基于价值—值迭代基于策略—策略迭代基于策略—策略梯度方法(PolicyGradient)

基于策略方法的思想基本思想:直接优化策略本身,从而得到最佳策略?

基于策略方法的优势适合处理连续动作问题可学习到随机性策略

随机性策略的重要性吸尘器的目标是吸除灰尘并避免杀死仓鼠确定性策略下,处于粉色状态时向右或向左移动,无论哪种情况都会陷入死循环中随机性策略下,处于粉色状态时随机向左或向右移动,很有可能达到目标状态确定性策略随机性策略

随机性策略梯度方法?

优化目标和方法??

策略梯度的推导?????采用对数技巧简化求导计算?回到期望形式??

?策略梯度定理

策略函数形式?

REINFORCE算法(vanillapolicygradient)

蒙特卡罗方法(MonteCarlo)?

首次访问和每次访问?

增量更新和蒙特卡罗控制???

REINFORCE算法?

REINFORCE算法流程?首次访问

举例:小车上山问题小车位于两峰之间,目标是以尽可能少的步数到达右边高峰山顶黄旗处,但是小车动力受到限制,因此无法直接加速到达右边峰顶,需要控制其先获得足够大的速度才能达到目标位置

形式化为MDP问题?小车当前的位置和动作会共同决定下一时刻小车的速度

步骤1:建立并初始化策略函数?隐藏层输入层输出层

步骤2:获得观测序列?

步骤3:参数更新?对梯度求平均

不断迭代后观察效果重复步骤2和步骤3,迭代1000次后得到的效果如下:

REINFORCE算法的改进

REINFORCE算法存在的问题???

基线(baseline)?

基线的作用?

on-policy和off-policy?

蒙特卡罗重要性采样?

重要性采样策略梯度?

探索策略?

REINFORCE算法总结优势:更好的收敛性适合处理高维或连续动作问题可以学习随机性策略劣势:容易收敛到局部最优策略估计训练速度慢,方差较大

案例:利用策略梯度方法求解小车上山问题

案例介绍以Gym作为实验环境,模拟小车上山问题利用TensorFlow搭建全连接神经网络作为策略函数使用REINFORCE算法求解小车上山问题

扫描二维码发现更多《强化学习》官方公众号

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档