1 强化学习介绍.pptVIP

  • 52
  • 0
  • 约 30页
  • 2016-12-19 发布于贵州
  • 举报
强化学习的基本要素 环境模型模拟了环境的行为,即给定一个状态和动作,模型可以预测必定导致下一个状态和下一个奖赏。模型一般用于规划。 规划是算出来的,强化学习是试出来的。 将模型和规划结合到强化学习是一个新进展,也是我们学习研究的重要内容。 强化学习介绍 本书中所有强化学习方法围绕估计值来组织,但这不是解决强化学习问题所必须的。 直接在策略空间中搜索而不利用值函数的方法称为进化方法。 适合用在策略空间比较小或者策略空间被构造地很好地情况下。 例子:Tic-Tac-Toe 初始 1→0.5 2→0.5 3→0.5 4→0.5 。 。 。 39 →0.5 当前 1→0.5 2→0.5 3→0.5 S 4→0.5 。。。 100→1 S’ 。。。 39 →0.5 不断对弈,不断更新估计 例子:Tic-Tac-Toe 更新贪心走棋之前的状态s: 例子:Tic-Tac-Toe 强化学习关键特征 学习时与环境交互(本例中与对手交互) 有一个清晰的目标 强化学习历史 主要有两条线路 一条线路关注试错学习,以动物心理学为起点。(贯穿人工智能早期) 另一条线路关注最优控制问题以及使用值函数和动态规划的解决方案。 强化学习历史 最优控制描述的问题是如何设计一个控制器来随时间而最小化动态系统的行为计量 一个解决这个问题的方法

文档评论(0)

1亿VIP精品文档

相关文档