POMDPs 算法复杂度对比分析研究.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2013 年第 1 期 深圳职业技术学院学报 No.1, 2013 * POMDPs 算法复杂度对比分析研究 仵 博,郑红燕,冯延蓬 (深圳职业技术学院 教育技术与信息中心,广东 深圳 518055) 摘 要:部分可观察马尔可夫决策过程 (Partially Observable Markov Decision Processes ,POMDPs)是动态 不确定环境下序贯决策的理想模型,但是现有算法都陷入 “维数灾”和 “历史灾”问题,造成理想的 POMDPs 模型无法在实际工程中得到应用.本文首先详细分析了POMDPs 精确算法的复杂度,阐述问题求解的难点;然 后比较分析现有基于点的离线算法和在线算法两类算法的算法思想和时间复杂度,指出两类算法的优缺点;最 后简介 POMDPs 实际应用情况和未来的研究方向. 关键词:部分可观察马尔可夫决策过程;序贯决策;信念状态空间;在线算法;维数灾 中图分类号:TP18 文献标志码:A 文章编号:1672-0318 (2013)0 1-0003-08 在人工智能领域,规划和决策是许多问题的 POMDPs 看成智能体与环境之间的博弈,在每一个 核心.在连续的时间片上,对于规定的问题,智 信念状态结点,智能体必须选择一个动作,然后环 能体通过选择合适的动作序列来完成既定目标, 境随机选择下一时刻的观察,在给定的深度内,通 这种决策称之为序贯决策,这个过程称之为序贯 过查找获得最佳动作.树查找算法可分为蒙特卡罗 决策过程.在序贯决策过程中,智能体必须在贪 采样算法、分支界限裁剪算法和启发式搜索算法.离 [1] 婪获取短期目标与长期规划之间做出平衡 .部 线求解算法主要分值函数近似算法、策略近似算法、 分 可 观 察 马 尔 可 夫 决 策 过 程 [2] (Partially 基于网格近似算法和分层近似算法等.值函数近似 Observable Markov Decision Processes,POMDPs) 算法分为完全观察 MDP 近似算法和基于点的近似 [6] 是智能体在动态不确定环境下进行序贯决策的一 算法 .由于基于点的近似算法符合人类认识世界 种理想数学模型.因此,动态不确定环境下的智 的规律,因此,最近几年得到众多学者的重视.基 能体序贯决策问题可以看成 POMDPs 的求解问 于点的算法主要思想是在给定的信念状态点上更新 题.由于POMDPs 能够更加客观地、准确地描述 整个a-vector ,可分为分批处理更新和异步更新. 真实世界,使它成为研究随机决策过程的重要分 但是,现有算法都陷入 “维数灾”和 “历史灾” 支,最近成为计算机、控制和管理等学科研究的 问题,造成理想的POMDPs 模型无法在实际工程中 [3] 热点 . 得到应用.本文首先详细分析 POMDPs 精确算法的 综述现有

文档评论(0)

smdh + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档