清华社教学课件深入浅出大语言模型第六章 强化学习方法(一).pptxVIP

  • 1
  • 0
  • 约小于1千字
  • 约 17页
  • 2026-05-25 发布于广东
  • 举报

清华社教学课件深入浅出大语言模型第六章 强化学习方法(一).pptx

第六章强化学习方法(一)

马少平清华大学计算机系

面向人工智能初学者的通俗讲座

《计算机是如何实现智能的》之

B站

获取PPT

跟我学AI公众号

6.1什么是强化学习

宠物表演

交互

训狗师的手势

小狗的动作

收益

正的收益

负的收益

6.1什么是强化学习

围棋的例子

试探

奖惩延迟

几个基本概念

6.1什么是强化学习

6.2策略梯度方法

6.2策略梯度方法

6.2策略梯度方法

6.2策略梯度方法

轨迹的期望回报

状态转移是按照概率发生的,轨迹的产生具有随机因素

如何提高轨迹期望回报?

提高高回报轨迹的概率

降低低回报轨迹的概率

强化学习一些概念的含义

6.2策略梯度方法

梯度的计算

由梯度计算的性质:

有:

梯度的计算

梯度的计算

梯度计算的蒙特卡洛方法

6.2策略梯度方法

敬请关注

“跟我学AI”公众号B站获取PPT

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档