Markov控过程的优化理论和算法.pdfVIP

下载本文档

51
0
约12.45万字
约 96页
2016-03-22 发布于贵州
举报
版权申诉

Markov控过程的优化理论和算法.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Markov控过程的优化理论和算法

摘要现实世界中的很多随机人造系统，如高速通讯网络、柔性制造系统、质量管理系统等，都可用Markov过程来建模，为适应这类问题的优化控制和设计的需要，论文重点研究了一类Markov控制过程在无限时间水平平均性能准则下的优化理论和优化算法。性能势在Markov系统的分析和研究中起着重要作用。我们用广义Poisson 方程的解来定义Markov性能势，并通过平衡方程和广义Poisson方程，建立了连续时间Markov控制过程基于性能势的最优性原理，以及基于性能势的平均代价最优性方程，又称之为基于性能势的Bellman最优性方程。在较弱的假设条件下，我们得到了这个最优性方程在紧致行动集上解的存在性定理，给出了求解平均代价最优策略的几种算法，即梯度算法、策略迭代算法和数值迭代算法，并且详细地研究了迭代算法的收敛性，说明了这些算法在有限步内能确保得到 epsilon一最优策略。这些研究结果都能直接运用到离散时间Maikov控制过程中，并且为进一步研究一般Markov控制过程的优化问题和设计求解最优策略的优化算法，提供了一个统一的基本的理论框架。 f但是这种基于理论计算的优化方法，依赖于系统的精确模型，往往需要系统的转移矩阵的完全信息，并且涉及到大量矩阵求逆运算。而对一个实际系统，其状态空间可能很大，即存在所谓的“维数灾”问题，矩阵求逆将占用较多内存空间和计算时间，甚至不可行；而且有的实际系统，其模型参数可能不全知，不可能获得所有转移概率的信息，即存在所谓的“模型灾”问题。这两方面问题限制了基于理论计算的优化方法的应用，需要考虑仿真方法。而性能势的一个重要特点是可以通过仿真或观测实际系统的运行得到的单个样本轨道来获得无偏估计。所以不同于基于理论计算的方法，我们还讨论了Markov控制过程基于单个样本轨道仿真的优化算法。这些算法都将适用于大规模实际系统在模型已知或未知情况下的优化求解。注意到，在Markov控制过程的优化算法中绝大部分的运算仅涉及到矩阵和向量的运算，具有很好的并行性。因此，我们建立了并行理论算法和并行仿真算法，可以用来解决计算机的内存容量限制和运算耗时方面的问题，加快了寻优速度。另外对有些实际系统，其状态空间非常大，建立在查表表示法基础上的优化算法可能不适用。因此，我们又发展了具有有限行动空间的Markov控制过程基于神经元动态规划的优化方法。这里策略是用参数逼近结构，如神经元网络和特征函数组合来表示，称之为参数化随机平稳策略。策略参数的数目比状态数少，节省了存储空间，并且策略参数可通过系统的单个样本轨道来更新，以寻找最优策略。这种方法，适用于解决一类大规模复杂人造系统的性能优化问题。文章列举了大量数值例子，其中包括受控闭排队网络，来说明这些优化方法的应用。W Abstract stochasticartificial as communication Manypractical systems，suchhigh-speed and be manufacturingsystemsqualitymanagementsystems，can networks，flexible of and modeledasMarkovcontrol theneeds by optimization processes．Motivated ofthese focusonthe ofthe and study theory design systems，we optimization