- 1
- 0
- 约小于1千字
- 约 17页
- 2026-05-25 发布于广东
- 举报
第六章强化学习方法(一)
马少平清华大学计算机系
面向人工智能初学者的通俗讲座
《计算机是如何实现智能的》之
B站
获取PPT
跟我学AI公众号
6.1什么是强化学习
宠物表演
交互
训狗师的手势
小狗的动作
收益
正的收益
负的收益
6.1什么是强化学习
围棋的例子
试探
奖惩延迟
几个基本概念
6.1什么是强化学习
6.2策略梯度方法
6.2策略梯度方法
6.2策略梯度方法
6.2策略梯度方法
轨迹的期望回报
状态转移是按照概率发生的,轨迹的产生具有随机因素
如何提高轨迹期望回报?
提高高回报轨迹的概率
降低低回报轨迹的概率
强化学习一些概念的含义
6.2策略梯度方法
梯度的计算
由梯度计算的性质:
有:
梯度的计算
梯度的计算
梯度计算的蒙特卡洛方法
6.2策略梯度方法
敬请关注
“跟我学AI”公众号B站获取PPT
您可能关注的文档
- 清华社课件循序渐进python程序设计第11章Matplotlib库应用基础.pptx
- 清华社课件循序渐进python程序设计第7章文件处理.pptx
- 清华社课件循序渐进python程序设计第2章数据类型.pptx
- 清华社课件循序渐进python程序设计第10章Pandas库的使用.pptx
- 清华社课件循序渐进python程序设计第9章Numpy库的使用.pptx
- 清华社课件循序渐进python程序设计第4章 函数应用.pptx
- 清华社课件循序渐进python程序设计第3章 基本语句.pptx
- 清华社课件计算与人工智能第2章 简单问题求解.pptx
- 清华社课件计算与人工智能第10章 科学计算.pptx
- 清华社课件计算与人工智能第6章:数组.pptx
- 清华社教学课件深入浅出大语言模型第四章 GPT模型(三).pptx
- 清华社C#程序设计与实践第二版教学课件第13章 搭建学生信息管理系统.pptx
- 清华社课件计算与人工智能第8章 结构体.pptx
- 清华社教学课件深入浅出大语言模型第二章 大语言模型预备知识(一).pptx
- 清华社课件仓颉语言面向对象程序语言设计第2章 仓颉语言基础.pptx
- 清华社教学课件深入浅出大语言模型第七章 基于人类反馈的强化学习方法.pptx
- 清华社C#程序设计与实践第二版教学课件第0章 准备开发环境.pptx
- 清华社教学课件深入浅出大语言模型第五章 BERT模型(一).pptx
- 清华社C#程序设计与实践第二版教学课件第12章 文件系统与Windows操作.pptx
- 清华社教学课件深入浅出大语言模型第三章 Transformer模型(七-1).pptx
原创力文档

文档评论(0)