清华社教学课件深入浅出大语言模型第六章强化学习方法（二）.pptxVIP

清华社教学课件深入浅出大语言模型第六章强化学习方法（二）.pptx

第六章强化学习方法（二）马少平清华大学计算机系面向人工智能初学者的通俗讲座《计算机是如何实现智能的》之B站获取PPT跟我学AI公众号

6.3演员-评论家方法演员-评论家方法是对策略梯度方法的改进演员是智能体，评论家是指导教师评论家对演员的表演进行评价，从而改进演员的表演水平相对于基本策略梯度方法多了一个评论家的角色

1，策略梯度方法存在的问题策略梯度方法总是提高带来正回报的动作的概率高回报率的动作不一定被采样问题高回报动作因未被采样而被降低其概率因用softmax对概率做归一化处理

举例?

2，优势函数??

3，演员-评论家方法???

优势函数的计算???????

优势函数的计算当采样L步时：定义L步优势函数：L越大越趋近于蒙特卡洛方法L步优势函数用TD误差表示：??????

基于L步优势函数的梯度计算L步优势函数表示的梯度：实际使用时L经常取值为1，简称为TD(0)?

6.3.4广义优势估计

（GeneralizedAdvantageEstimation，GAE）???

6.3.4广义优势估计??????

基于广义优势函数的梯度计算期望用平均值代替：??

基于广义优势函数的演员-评论家方法???演员评论家

6.3.5评论家模型??

6.3.5评论家模型?????

6.3.5评论家模型当使用L步时序差分（TD）方法时：当L=1时：?????