强化学习(微课版)课件11-异策略学习.pptx

强化学习(微课版)课件11-异策略学习.pptx

异策略学习

教学提纲1掌握重要性采样的原理

23掌握异策略蒙特卡洛控制算法

4掌握异策略时序差分控制算法

掌握异策略学习的原理

异策略学习?强化学习在与环境互动的过程中学习,然而现实世界中直接与真实环境互动成本高,安全风险大。?通常使用异策略学习解决这个问题。

?在强化学习控制的过程中:若行动遵循的行动策略(BehaviorPolicy)和被评估的目标策略(TargetPolicy)是同一个策略,则称为同策略学习(On-policyLearning)。若行动遵循的行动策略和被评估的目标策略是不同的策略,则称为异策略学习(Off-policyLearning)。?在异策略学

文档评论(0)

1亿VIP精品文档

相关文档