清华社教学课件深入浅出大语言模型第六章 强化学习方法(三)(新).pptxVIP

  • 1
  • 0
  • 约小于1千字
  • 约 28页
  • 2026-05-25 发布于广东
  • 举报

清华社教学课件深入浅出大语言模型第六章 强化学习方法(三)(新).pptx

第六章强化学习方法(三)马少平清华大学计算机系面向人工智能初学者的通俗讲座《计算机是如何实现智能的》之B站获取PPT跟我学AI公众号

6.4近端策略优化算法

(ProximalPolicyOptimization,PPO)采样问题策略梯度、演员-评论家方法均需要采样通过采样对策略进行更新同策略方法(On-Policy)采样策略与被训练策略是同一个策略采样结果不能重复使用异策略方法(Off-Policy)采样策略与被训练策略策略不是同一个策略采样结果可以重复使用近端策略优化算法(PPO)在演员-评论家方法的基础上引入异策略的一种策略梯度方法

6.4.1重要性采样(ImportanceSampling,IS)?

6.4.1重要性采样???重要性权重?

6.4.1重要性采样存在问题由于采样不足可能造成f(x)的加权平均值存在很大误差实际大于0却采样为小于0希望q(x)与p(x)分布尽可能一致采样多采样少采样多采样少

6.4.2近端策略优化算法(PPO)???

6.4.2近端策略优化算法(PPO)?????

6.4.2近端策略优化算法(PPO)????

????

?对重要性权重进行裁减引入裁剪函数clip?

???选小的作为优势函数?

2.1,三种不裁剪的情况

?????

??????

??????

(1)(2)(3)三种情况的梯度???

直观解释?

直观

文档评论(0)

1亿VIP精品文档

相关文档