强化学习(微课版)课件10-时序差分法.pptx

强化学习(微课版)课件10-时序差分法.pptx

时序差分法

教学提纲1掌握时序差分法的基本原理

23掌握n步预测与控制问题求解

掌握TD(0)预测与控制问题求解

时序差分发?时序差分法(Temporal-DifferenceLearning,TD法)是一种解决最优控制问题的方法。?时序差分法延续了蒙特卡洛法的无模型求解思想,从交互经验数据中进行学习。?时序差分法也保留了动态规划法中的自举思想,基于后续状态的估计值来更新当前状态的估计值。?最重要的是,时序差分法无需等待一个完整交互序列的结束即可进行学习。可以解决需要参与者持续与环境互动并做出决策的控制问题。

TD(0)预测

首先我们回顾状态值函数的定义式,

文档评论(0)

1亿VIP精品文档

相关文档