策略梯度法
教学提纲1掌握策略梯度的基本概念和原理
23掌握基线机制的原理和作用
4掌握A-C算法和PPO算法原理
了解蒙特卡洛策略梯度算法原理
策略梯度?策略梯度法是基于策略的(Policy-based)强化学习方法。?策略梯度法通过学习参数化策略(ParameterizedPolicy)而非状态-行动值函数来选择行动a。?在某些情况下,值函数被用于学习策略参数。
基本概念与值函数近似法一样,策略梯度法采用了监督学习的框架。(监督学习的三步法:选模型,定指标,建算法)值函数近似法将状态s和行动a输入带参数的函数
原创力文档

文档评论(0)