强化学习(微课版)课件12-值函数近似法.pptx

强化学习(微课版)课件12-值函数近似法.pptx

值函数近似法

教学提纲1了解近似求解法与表格求解法的区别

23掌握值函数近似预测与控制问题求解过程

4掌握线性函数逼近器的定义和应用

掌握强化学习近似求解法的基本原理

值函数近似法?之前介绍了有模型的动态规划法,无模型的蒙特卡洛法和时序差分法。这些方法都是表格方法(TabularMethod),表格的大小为|S|×|A|。?表格法只适用于状态空间和行动空间是离散的情况,并且状态空间的大小|S|和行动空间的大小|A|不能太大。?实际问题中,状态空间和行动空间往往很大并且可能是连续的,表格法不再适用。这时,我们可以考虑求解近似最优解,即使用函数近似法来求解。

文档评论(0)

1亿VIP精品文档

相关文档