- 0
- 0
- 约小于1千字
- 约 17页
- 2026-05-25 发布于广东
- 举报
第六章强化学习方法(二)马少平清华大学计算机系面向人工智能初学者的通俗讲座《计算机是如何实现智能的》之B站获取PPT跟我学AI公众号
6.3演员-评论家方法演员-评论家方法是对策略梯度方法的改进演员是智能体,评论家是指导教师评论家对演员的表演进行评价,从而改进演员的表演水平相对于基本策略梯度方法多了一个评论家的角色
1,策略梯度方法存在的问题策略梯度方法总是提高带来正回报的动作的概率高回报率的动作不一定被采样问题高回报动作因未被采样而被降低其概率因用softmax对概率做归一化处理
举例?
2,优势函数??
3,演员-评论家方法???
优势函数的计算???????
优势函数的计算当采样L步时:定义L步优势函数:L越大越趋近于蒙特卡洛方法L步优势函数用TD误差表示:??????
基于L步优势函数的梯度计算L步优势函数表示的梯度:实际使用时L经常取值为1,简称为TD(0)?
6.3.4广义优势估计
(GeneralizedAdvantageEstimation,GAE)???
6.3.4广义优势估计??????
基于广义优势函数的梯度计算期望用平均值代替:??
基于广义优势函数的演员-评论家方法???演员评论家
6.3.5评论家模型??
6.3.5评论家模型?????
6.3.5评论家模型当使用L步时序差分(TD)方法时:当L=1时:?????
敬请关注“跟我
您可能关注的文档
- 清华社课件循序渐进python程序设计第11章Matplotlib库应用基础.pptx
- 清华社课件循序渐进python程序设计第7章文件处理.pptx
- 清华社课件循序渐进python程序设计第2章数据类型.pptx
- 清华社课件循序渐进python程序设计第10章Pandas库的使用.pptx
- 清华社课件循序渐进python程序设计第9章Numpy库的使用.pptx
- 清华社课件循序渐进python程序设计第4章 函数应用.pptx
- 清华社课件循序渐进python程序设计第3章 基本语句.pptx
- 清华社课件计算与人工智能第2章 简单问题求解.pptx
- 清华社课件计算与人工智能第10章 科学计算.pptx
- 清华社课件计算与人工智能第6章:数组.pptx
原创力文档

文档评论(0)