强化学习(微课版)课件9-蒙特卡洛法.pptx

强化学习(微课版)课件9-蒙特卡洛法.pptx

蒙特卡洛法

教学提纲

掌握蒙特卡洛预测问题的求解

蒙特卡洛法

给定马尔科夫决策过程MDP(S,A,P,R,γ),我们一般将状态转移矩阵P已知的强化学习问题称

为有模型的强化学习问题,将状态转移矩阵P未知的强化学习问题称为无模型的强化学习问题。

有模型(S,A,P,R,γ):可使用动态规划,算法的复杂度大且效率低,实际应用中一般不直接采用。

无模型(S,A,P?,R,γ):可使用蒙特卡洛法。

蒙特卡洛方法对马尔科夫决策过程进行随机采样,通过构建样本序列来估算原问题的期望值。

蒙特卡洛方法求解无模型强化问题的前提条件是,每个样本序列必须是一个完整的交互

文档评论(0)

1亿VIP精品文档

相关文档