强化学习(微课版)课件13-策略梯度法.pptx

强化学习(微课版)课件13-策略梯度法.pptx

策略梯度法

教学提纲1掌握策略梯度的基本概念和原理

23掌握基线机制的原理和作用

4掌握A-C算法和PPO算法原理

了解蒙特卡洛策略梯度算法原理

策略梯度?策略梯度法是基于策略的(Policy-based)强化学习方法。?策略梯度法通过学习参数化策略(ParameterizedPolicy)而非状态-行动值函数来选择行动a。?在某些情况下,值函数被用于学习策略参数。

基本概念与值函数近似法一样,策略梯度法采用了监督学习的框架。(监督学习的三步法:选模型,定指标,建算法)值函数近似法将状态s和行动a输入带参数的函数

文档评论(0)

1亿VIP精品文档

相关文档