清华社教学课件深入浅出大语言模型第六章强化学习方法（一）.pptxVIP

下载本文档

1
0
约小于1千字
约 17页
2026-05-25 发布于广东
举报

清华社教学课件深入浅出大语言模型第六章强化学习方法（一）.pptx

第六章强化学习方法（一）

马少平清华大学计算机系

面向人工智能初学者的通俗讲座

《计算机是如何实现智能的》之

B站

获取PPT

跟我学AI公众号

6.1什么是强化学习

宠物表演

交互

训狗师的手势

小狗的动作

收益

正的收益

负的收益

6.1什么是强化学习

围棋的例子

试探

奖惩延迟

几个基本概念

6.1什么是强化学习

6.2策略梯度方法

6.2策略梯度方法

6.2策略梯度方法

6.2策略梯度方法

轨迹的期望回报

状态转移是按照概率发生的，轨迹的产生具有随机因素

如何提高轨迹期望回报？

提高高回报轨迹的概率

降低低回报轨迹的概率

强化学习一些概念的含义

6.2策略梯度方法

梯度的计算

由梯度计算的性质：

有：

梯度的计算

梯度的计算

梯度计算的蒙特卡洛方法

6.2策略梯度方法

敬请关注

“跟我学AI”公众号B站获取PPT

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

更多 >

相关文档

版权处理: 版权声明; 侵权处理; 免责声明; 致被侵权者一封信; 网站诺言

使用帮助: 用户协议; 隐私政策; 上传下载; 投稿帮助; 文档保障服务承诺

文赚学院: 文赚入门; 工具技巧; 官方动态; 文档分析

关于: 关于网站; 联系我们; 企业文化; 公司优势; 寻找合作

更多: 机构入驻; 内容整治报告; 原创力公益; 版权公示; 处罚记录; 分享赚钱

: 原创力文档APP下载

: 关注微信公众号

原创力文档从2008年开站以来，已有数亿文档，我们定位于“知识共享、知识服务”；我们为内容提供方提供“无忧创作”解决方案：您作为内容提供方只需要将您创作的数字作品提供/授权给我们，后续的质量管理/宣传/推广/销售/内容分发/开具发票/售后/退款等均由我们完成，让您创作无后顾之忧，让您安心创作更多优质的数字作品！上传者QQ群（最新）：751299218。
有任何问题，请随时联系智能客服，侵权专属客服微信！其它问题点击联系我们！本站内容，未经授权，不得采集、搬运！包括但不限于Al采集后用于训练，侵权必究！

公安局备案号:51011502000106|工信部备案号:蜀ICP备08101938号-1|ICP经营许可证/EDI许可证:川B2-20180569|公司营业执照|出版物经营许可证:成新出发高新字第046号|网信算备:510107145616301250011号
© 2010-2026 max.book118.com 原创力文档. All Rights Reserved 四川文动网络科技有限公司违法与不良信息举报电话：18582317992