- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
部分可观察马尔可夫
决策过程研究进展.
精品好资料-如有侵权请联系网站删除
0引言
部分可观察马尔可夫决策过程(partiallyobservableMarkovdecisionprocees,
POMDP描述的是当前世界模型部分可知的情况下,智能体AgentAgent的例如,足
球运动员在球场上踢足球,每个球员并不完全清楚他周围的所有状态,当他向前带
球的过程中,他可能知道在他前面人的位置和状态,但是可能不知道在他后面的其
他队友的位置和状态,此时他观察到的信息是不完整的,但是一个优秀的足球运动
员往往靠着一种感觉传给他身后的最有利的队员,使其进行最有利的进攻,
过程就是部分可观察马尔可夫决策过程。在部分可感知模型中,不仅要考虑到
状态的不确定性,同时还要考虑到动作的不确定性,这种世界模型更加能够客观的描
述真实世界,因此应用十分广泛。
本文综述了目前在POMDP领域的研究情况,介绍了MDP的数学理论基础和
决策模型,以及一种典型的POMDP决策算法-值迭代算法,介绍了目前现有的几种
经典的决策算法,并分析它们之间的优点和不足,列举了一些POMDP常见的应用
领域,并进行了总结和展望。
1马尔可夫决策过程
Agent每一个时刻都要做一些决策,做决策时不仅要考虑甚至是其它Agent
(Markovdecisionproce,MDP的最优解,MDP可以用一个四元组
,来描述[1]
:
精品好资料-如有侵权请联系网站删除
精品好资料-如有侵权请联系网站删除
:Agent
的行为集;
,:
×:当Agent
在状态,
可能转移到状态的概率,
使用|
:→情况下
采用动作
-2116-
-2117
-
,Agent使Agent选择的动作能够获得
精品好资料-如有侵权请联系网站删除
精品好资料-如有侵权请联系网站删除
在MDP模型中,Agent
在
为折扣因子,
其目标是让期望值有界
(1
由于MDP决策过程中,要同时考虑世界模型的不确定性和目标的长远性,
需要在策略
时刻,
状态
的情况下,
值函数构造如下
=
,
精品好资料-如有侵权请联系网站删除
精品好资料-如有侵权请联系网站删除
=
,
*,也就是Agent每个时刻都能做到的最优决
策,根据Bellman
最优策略公式可以得到。根据贪婪策
*
=arg
max,
*
1
(4
=
max
精品好资料-如有侵权请联系网站删除
精品好资料-如有侵权请联系网站删除
,
*
(5
最优策略的通常使用值迭代算法[2],具体的算法步骤如下步骤1
初始化V1(s=0,
假定一个任意小的数值
=
max
,
1
得到Vt(S;步骤3判断下,如果结果为真,则进入步骤4;否则返
回步骤2;
‖
1
‖
精品好资料-如有侵权请联系网站删除
精品好资料-如有侵权请联系网站删除
步骤4
对于每个s∈S,
取=arg
max
,
1
由于下式可以知道,值迭代算法所求出来的策略将是最优策略
max
*
(6
2POMDPs
在POMDP模型中,Agent必须利用随机环境中部分观察在每个时间点上,
Agent都可能是众多可能状态中的某一状态,它必须利用现有的部分信息、[1,3]。
一般情况下,POMDP可以用一个六元组
原创力文档


文档评论(0)