值函数近似法
教学提纲1了解近似求解法与表格求解法的区别
23掌握值函数近似预测与控制问题求解过程
4掌握线性函数逼近器的定义和应用
掌握强化学习近似求解法的基本原理
值函数近似法?之前介绍了有模型的动态规划法,无模型的蒙特卡洛法和时序差分法。这些方法都是表格方法(TabularMethod),表格的大小为|S|×|A|。?表格法只适用于状态空间和行动空间是离散的情况,并且状态空间的大小|S|和行动空间的大小|A|不能太大。?实际问题中,状态空间和行动空间往往很大并且可能是连续的,表格法不再适用。这时,我们可以考虑求解近似最优解,即使用函数近似法来求解。
您可能关注的文档
最近下载
- 世界地理 超星尔雅学习通满分答案章节测验.doc VIP
- 2026北京中考语文精细复习资料(考纲导向·备考大全).pdf
- 二界沟渔港工程梁板式高桩码头结构毕业设计.doc VIP
- 高桩码头毕业设计浙江省苍南巴艚中心渔港工程样本.pdf VIP
- 2025年燃气管道项目可行性研究报告.docx VIP
- 22CJ110-1 防火玻璃及其门窗幕墙系统建筑构造——恒保防火玻璃系统产品 参考图集.docx
- 2025年神经外科简答试题及答案.docx
- wefp升级电气火灾监控系统说明书wefps主机.pdf VIP
- 10.1相交线对顶角及其性质第1课时课件 沪科版(2024)数学 七年级下册.pptx VIP
- 新版《建设工程监理规范》(GB50319-2022)基本表式总表.pdf VIP
原创力文档

文档评论(0)