部分可观察马尔可夫决策过程研究进展.pdf

下载文档

6
0
约1.21万字
约 33页
2025-04-08 发布于湖北
举报
版权申诉
保障服务

部分可观察马尔可夫决策过程研究进展.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

部分可观察马尔可夫

决策过程研究进展.

精品好资料-如有侵权请联系网站删除

0引言

部分可观察马尔可夫决策过程(partiallyobservableMarkovdecisionprocees,

POMDP描述的是当前世界模型部分可知的情况下,智能体AgentAgent的例如,足

球运动员在球场上踢足球,每个球员并不完全清楚他周围的所有状态,当他向前带

球的过程中,他可能知道在他前面人的位置和状态,但是可能不知道在他后面的其

他队友的位置和状态,此时他观察到的信息是不完整的,但是一个优秀的足球运动

员往往靠着一种感觉传给他身后的最有利的队员,使其进行最有利的进攻,

过程就是部分可观察马尔可夫决策过程。在部分可感知模型中,不仅要考虑到

状态的不确定性,同时还要考虑到动作的不确定性,这种世界模型更加能够客观的描

述真实世界,因此应用十分广泛。

本文综述了目前在POMDP领域的研究情况,介绍了MDP的数学理论基础和

决策模型,以及一种典型的POMDP决策算法-值迭代算法,介绍了目前现有的几种

经典的决策算法,并分析它们之间的优点和不足,列举了一些POMDP常见的应用

领域,并进行了总结和展望。

1马尔可夫决策过程

Agent每一个时刻都要做一些决策,做决策时不仅要考虑甚至是其它Agent

(Markovdecisionproce,MDP的最优解,MDP可以用一个四元组

,来描述[1]

精品好资料-如有侵权请联系网站删除

:Agent

的行为集;

×:当Agent

在状态,

可能转移到状态的概率,

使用|

:→情况下

采用动作

-2116-

-2117

,Agent使Agent选择的动作能够获得

精品好资料-如有侵权请联系网站删除

在MDP模型中,Agent

在

为折扣因子,

其目标是让期望值有界

由于MDP决策过程中,要同时考虑世界模型的不确定性和目标的长远性,

需要在策略

时刻,

状态

的情况下,

值函数构造如下

精品好资料-如有侵权请联系网站删除

*,也就是Agent每个时刻都能做到的最优决

策,根据Bellman

最优策略公式可以得到。根据贪婪策

=arg

max,

max

精品好资料-如有侵权请联系网站删除

最优策略的通常使用值迭代算法[2],具体的算法步骤如下步骤1

初始化V1(s=0,

假定一个任意小的数值

max

得到Vt(S;步骤3判断下,如果结果为真,则进入步骤4;否则返

回步骤2;

‖

精品好资料-如有侵权请联系网站删除

步骤4

对于每个s∈S,

取=arg

max

由于下式可以知道,值迭代算法所求出来的策略将是最优策略

max

2POMDPs

在POMDP模型中,Agent必须利用随机环境中部分观察在每个时间点上,

Agent都可能是众多可能状态中的某一状态,它必须利用现有的部分信息、[1,3]。

一般情况下,POMDP可以用一个六元组

部分可观察马尔可夫决策过程研究进展.pdf 原文免费试下载

您可能关注的文档

文档评论（0）

麒麟瑞兽 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

部分可观察马尔可夫决策过程研究进展.pdf