顺序价值迭代算法求解不确定规划.pdfVIP

  • 11
  • 0
  • 约1.4万字
  • 约 4页
  • 2017-08-16 发布于北京
  • 举报
顺序价值迭代算法求解不确定规划.pdf

第1期 微处理机 No.1 2011年2月 MICROPROCESSORS Feb..2011 顺序价值迭代算法求解不确定规划 刘小飞1,杨大全1,李明杰2,聂庆欣3,杨婷婷1 (1.海南大学三亚学院理工分院,三亚572022; 2.海南大学三亚学院公共基础分院,三亚572022;3.敦化市职业技术学院,敦化133700) 摘要:基于Markov决策过程(MDP)的规划方法可以处理多种不确定规划问题,价值迭代算 法(VI)是求解MDP的经典算法,但VI需要计算更新每个状态的值,求解过程相当缓慢。在分析 了MDP状态图本身的因果依赖关系的基础上,提出一种改进的价值迭代算法,称为顺序价值迭代 算法(sVI)。它先将一个MDP分解成多个拓扑有序的强连通分量,然后应用价值迭代算法顺序求 解各个分量,这样处理可以避免对大量无用状态的计算并使得可用状态排成拓扑序列。对比实验 结果证明了该算法的有效性及优异性能。

文档评论(0)

1亿VIP精品文档

相关文档