蒙特卡洛法
教学提纲
掌握蒙特卡洛预测问题的求解
蒙特卡洛法
给定马尔科夫决策过程MDP(S,A,P,R,γ),我们一般将状态转移矩阵P已知的强化学习问题称
为有模型的强化学习问题,将状态转移矩阵P未知的强化学习问题称为无模型的强化学习问题。
有模型(S,A,P,R,γ):可使用动态规划,算法的复杂度大且效率低,实际应用中一般不直接采用。
无模型(S,A,P?,R,γ):可使用蒙特卡洛法。
蒙特卡洛方法对马尔科夫决策过程进行随机采样,通过构建样本序列来估算原问题的期望值。
蒙特卡洛方法求解无模型强化问题的前提条件是,每个样本序列必须是一个完整的交互
您可能关注的文档
最近下载
- 2025年山东省济宁市兖州区小升初数学试卷(含答案).pdf VIP
- 急性肩锁关节脱位的治疗策略.pdf VIP
- 2025年国家公务员考试《公安专业科目》真题.pdf VIP
- 北京市人大附中小升初数学期末试卷综合测试(Word版 含答案).doc VIP
- (资料查询大全.doc VIP
- 机械原理课程设计1122_半自动钻床说明书(完全免费).doc VIP
- 四川省遂宁市射洪县2024届小升初数学试卷.doc VIP
- 【统编版语文三年级下册】《22 我们奇妙的世界》PPT课件【精华版】.pptx VIP
- 大学英语四级考试模拟试题(含答案及详细解析).docx VIP
- 煤化工行业温室气体排放核算与报告要求 第1部分:煤制甲醇企业.pdf VIP
原创力文档

文档评论(0)