高级人工智能第十章 - 强化学习.pptVIP

  • 32
  • 0
  • 约2.06万字
  • 约 10页
  • 2018-04-29 发布于浙江
  • 举报
高级人工智能第十章 - 强化学习

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 强化学习 史忠植 * Framework of POMDP POMDP由六元组S, A, R, P,Ω,О定义。其中S, A, P, R定义了环境潜在的马尔可夫决策模型上,Ω是观察的集合,即系统可以感知的世界状态集合,观察函数О:S×A→PD(Ω)。系统在采取动作a转移到状态s′时,观察函数О确定其在可能观察上的概率分布。记为О(s′, a, o)。 [1] Ω可以是S的子集,也可以与S无关 * 强化学习 史忠植 * POMDPs What if state information (from sensors) is noisy? Mostly the case! MDP techniques are suboptimal! Two halls are not the same. * 强化学习 史忠植 * POMDPs – A Solution Strategy SE: Belief State Estimator (Can be based on

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档