- 1
- 0
- 约小于1千字
- 约 28页
- 2026-05-25 发布于广东
- 举报
第六章强化学习方法(三)马少平清华大学计算机系面向人工智能初学者的通俗讲座《计算机是如何实现智能的》之B站获取PPT跟我学AI公众号
6.4近端策略优化算法
(ProximalPolicyOptimization,PPO)采样问题策略梯度、演员-评论家方法均需要采样通过采样对策略进行更新同策略方法(On-Policy)采样策略与被训练策略是同一个策略采样结果不能重复使用异策略方法(Off-Policy)采样策略与被训练策略策略不是同一个策略采样结果可以重复使用近端策略优化算法(PPO)在演员-评论家方法的基础上引入异策略的一种策略梯度方法
6.4.1重要性采样(ImportanceSampling,IS)?
6.4.1重要性采样???重要性权重?
6.4.1重要性采样存在问题由于采样不足可能造成f(x)的加权平均值存在很大误差实际大于0却采样为小于0希望q(x)与p(x)分布尽可能一致采样多采样少采样多采样少
6.4.2近端策略优化算法(PPO)???
6.4.2近端策略优化算法(PPO)?????
6.4.2近端策略优化算法(PPO)????
????
?对重要性权重进行裁减引入裁剪函数clip?
???选小的作为优势函数?
2.1,三种不裁剪的情况
?????
??????
??????
(1)(2)(3)三种情况的梯度???
直观解释?
直观
您可能关注的文档
- 清华社课件循序渐进python程序设计第11章Matplotlib库应用基础.pptx
- 清华社课件循序渐进python程序设计第7章文件处理.pptx
- 清华社课件循序渐进python程序设计第2章数据类型.pptx
- 清华社课件循序渐进python程序设计第10章Pandas库的使用.pptx
- 清华社课件循序渐进python程序设计第9章Numpy库的使用.pptx
- 清华社课件循序渐进python程序设计第4章 函数应用.pptx
- 清华社课件循序渐进python程序设计第3章 基本语句.pptx
- 清华社课件计算与人工智能第2章 简单问题求解.pptx
- 清华社课件计算与人工智能第10章 科学计算.pptx
- 清华社课件计算与人工智能第6章:数组.pptx
最近下载
- 2025年重庆市地理生物会考真题试卷(含答案).docx VIP
- (2023-2025)三年高考英语《语法填空》真题解读(含解析).docx
- 河北省石家庄工会笔试真题.pdf VIP
- 新编农村集体经济组织换届选举程序4:选举成员代表(操作规程与文本模板).docx VIP
- 2025年国家开放大学电大《小学数学教学研究》大作业形考任务网考题库及答 精品.pdf VIP
- 2026年上海市金山区中考一模跨学科案例分析试卷含详解.docx VIP
- 农业部953号公告-10.1-2007-转基因植物及其产品环境安全检测抗虫玉米-第1部分-抗虫性.pdf VIP
- 新能源车生产线安全及环保管理规定企业安全生产规范化细则应急预案手册台账制度方案等.pdf VIP
- 专题复习:电功率之比例问题(举一反三讲义)(学生版).docx VIP
- 大金模块机操作安装维护指导手册最新.pdf VIP
原创力文档

文档评论(0)