异策略学习
教学提纲1掌握重要性采样的原理
23掌握异策略蒙特卡洛控制算法
4掌握异策略时序差分控制算法
掌握异策略学习的原理
异策略学习?强化学习在与环境互动的过程中学习,然而现实世界中直接与真实环境互动成本高,安全风险大。?通常使用异策略学习解决这个问题。
?在强化学习控制的过程中:若行动遵循的行动策略(BehaviorPolicy)和被评估的目标策略(TargetPolicy)是同一个策略,则称为同策略学习(On-policyLearning)。若行动遵循的行动策略和被评估的目标策略是不同的策略,则称为异策略学习(Off-policyLearning)。?在异策略学
原创力文档

文档评论(0)