部分可观察马尔可夫决策过程研究进展.pdf

部分可观察马尔可夫决策过程研究进展.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

部分可观察马尔可夫

决策过程研究进展.

精品好资料-如有侵权请联系网站删除

0引言

部分可观察马尔可夫决策过程(partiallyobservableMarkovdecisionprocees,

POMDP描述的是当前世界模型部分可知的情况下,智能体AgentAgent的例如,足

球运动员在球场上踢足球,每个球员并不完全清楚他周围的所有状态,当他向前带

球的过程中,他可能知道在他前面人的位置和状态,但是可能不知道在他后面的其

他队友的位置和状态,此时他观察到的信息是不完整的,但是一个优秀的足球运动

员往往靠着一种感觉传给他身后的最有利的队员,使其进行最有利的进攻,

过程就是部分可观察马尔可夫决策过程。在部分可感知模型中,不仅要考虑到

状态的不确定性,同时还要考虑到动作的不确定性,这种世界模型更加能够客观的描

述真实世界,因此应用十分广泛。

本文综述了目前在POMDP领域的研究情况,介绍了MDP的数学理论基础和

决策模型,以及一种典型的POMDP决策算法-值迭代算法,介绍了目前现有的几种

经典的决策算法,并分析它们之间的优点和不足,列举了一些POMDP常见的应用

领域,并进行了总结和展望。

1马尔可夫决策过程

Agent每一个时刻都要做一些决策,做决策时不仅要考虑甚至是其它Agent

(Markovdecisionproce,MDP的最优解,MDP可以用一个四元组

,来描述[1]

:

精品好资料-如有侵权请联系网站删除

精品好资料-如有侵权请联系网站删除

:Agent

的行为集;

,:

×:当Agent

在状态,

可能转移到状态的概率,

使用|

:→情况下

采用动作

-2116-

-2117

-

,Agent使Agent选择的动作能够获得

精品好资料-如有侵权请联系网站删除

精品好资料-如有侵权请联系网站删除

在MDP模型中,Agent

为折扣因子,

其目标是让期望值有界

(1

由于MDP决策过程中,要同时考虑世界模型的不确定性和目标的长远性,

需要在策略

时刻,

状态

的情况下,

值函数构造如下

=

,

精品好资料-如有侵权请联系网站删除

精品好资料-如有侵权请联系网站删除

=

,

*,也就是Agent每个时刻都能做到的最优决

策,根据Bellman

最优策略公式可以得到。根据贪婪策

*

=arg

max,

*

1

(4

=

max

精品好资料-如有侵权请联系网站删除

精品好资料-如有侵权请联系网站删除

,

*

(5

最优策略的通常使用值迭代算法[2],具体的算法步骤如下步骤1

初始化V1(s=0,

假定一个任意小的数值

=

max

,

1

得到Vt(S;步骤3判断下,如果结果为真,则进入步骤4;否则返

回步骤2;

1

精品好资料-如有侵权请联系网站删除

精品好资料-如有侵权请联系网站删除

步骤4

对于每个s∈S,

取=arg

max

,

1

由于下式可以知道,值迭代算法所求出来的策略将是最优策略

max

*

(6

2POMDPs

在POMDP模型中,Agent必须利用随机环境中部分观察在每个时间点上,

Agent都可能是众多可能状态中的某一状态,它必须利用现有的部分信息、[1,3]。

一般情况下,POMDP可以用一个六元组

文档评论(0)

麒麟瑞兽 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档