马尔可夫决策.ppt

MarkovDecision马尔可夫决策第九组:史文祥 曹海歌12

2设计一个回报函数,如果learningagent在决定一步后,获得了较好的结果,那么我们给agent一些回报(比如回报函数结果为正),若得到较差的结果,那么回报函数为负。比如,四足机器人,如果他向前走了一步(接近目标),那么回报函数为正,后退为负。如果我们能够对每一步进行评价,得到相应的回报函数,那么就好办了,我们只需要找到一条回报值最大的路径(每步的回报之和最大),就认为是最佳的路径。2

2马尔可夫决策过程(MDP,Markovdecisionprocesses)是基于马尔可夫过程理论的随机动态系统的最优决策过程。它是马尔可夫过程与确定性的动态规划相结合的产物,又称马尔可夫型随机动态规划。研究一类可周期地或连续地进行观察的随机动态系统的最优化问题。在各个时刻根据观察到的状态,从它的马尔可夫决策相关书籍允许决策(控制、行动、措施等)集合中选用一个决策而决定了系统下次的转移规律与相应的运行效果。并假设这两者都不依赖于系统过去的历史。在各个时刻选取决策的目的,是使系统运行的全过程达到某种最优运行效果,即选取控制(影响)系统发展的最优策略。3

2MDP五元组(S,A,{Psa},γ,R)S:状态集(states)A:一组动作(actions)Psa:状态转移概率γ:阻尼系数(disco

文档评论(0)

1亿VIP精品文档

相关文档