蒙特卡洛法
教学提纲
掌握蒙特卡洛预测问题的求解
蒙特卡洛法
给定马尔科夫决策过程MDP(S,A,P,R,γ),我们一般将状态转移矩阵P已知的强化学习问题称
为有模型的强化学习问题,将状态转移矩阵P未知的强化学习问题称为无模型的强化学习问题。
有模型(S,A,P,R,γ):可使用动态规划,算法的复杂度大且效率低,实际应用中一般不直接采用。
无模型(S,A,P?,R,γ):可使用蒙特卡洛法。
蒙特卡洛方法对马尔科夫决策过程进行随机采样,通过构建样本序列来估算原问题的期望值。
蒙特卡洛方法求解无模型强化问题的前提条件是,每个样本序列必须是一个完整的交互
原创力文档

文档评论(0)