强化学习(微课版)课件7-马尔科夫决策过程.pptx

强化学习(微课版)课件7-马尔科夫决策过程.pptx

马尔科夫决策过程

教学提纲1掌握马尔科夫过程的基本形式2掌握马尔科夫奖励过程和贝尔曼方程3掌握马尔科夫决策过程4掌握最优策略和贝尔曼最优方程

序贯决策回顾:强化学习是参与者为了达到长期回报最大化的目标,通过观察系统环境不断试错进行学习的过程,并最终形成最优策略。序贯决策问题:针对随机动态系统的不确定性按时间顺序给出最优策略。(强化学习目标)马尔科夫决策过程(MarkovDecisionProcess,MDP)是解决序贯决策问题的经典方法。3

马尔科夫过程马尔科夫性:无后效性的随机过程未来的状态只与当前状态有关,与过去所有状态无关马尔科夫过程:具备马尔科夫性的随机过程马尔科夫链:状态离散的

文档评论(0)

1亿VIP精品文档

相关文档