连续时间马尔可夫决策过程平均最优的新条件.pdfVIP

下载本文档

12
0
约2.65万字
约 30页
2019-06-09 发布于江苏
举报
版权申诉

连续时间马尔可夫决策过程平均最优的新条件.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第一卓绪论统，这里n可取有限多个值，如H；01，2，…Ⅳ，也可取所有的非负整数。一个离散时间马尔可夫决策过程的模型由如下的五重组组成：忸，爿OXP。-Ir(f，dXⅣ，f，J∈s，n∈爿(f)} (1—1) 其中各元的含义如下： 1．5是系统所有可能的状态所组成的非空的状态集，即系统的状念空间，它可以是有限的、可列的或任意的非空集。我们用小写的字母f，，，≈ 等来表示状态。 2．对状态f∈s，爿(f)是在状态f处可用的决策集，它是非空的；当不特别指出时亦假定它是可数集。常用口来表示决策。 3．当系统在决策时刻点n处于状态f，采取决策口∈一(f)时，则系统在下一决策时刻点n+1时处于状态j的概率为p。(a)，假定它与决策时刻n无关。称p；b“0lf，，∈s，n∈爿O)}为系统的状态转移概率族，于是，对f∈s，口∈彳(f)，有荟n，仁)=1，即恼u(口lJ∈s}为一随机向量。范围稍广一点的是扫叫(口l，∈s}为次随机向量的情形，即善pf，』(n)s1。在大多数情况下，这两种情形可统一考虑。 4．当系统在决策时刻点n处于状态f，采取决策口∈爿(f)时，系统于在r上的一个广义函数r：r一[_。。，+*]，于是我们常称，为报酬函数。， o时，它表示的实际上可以只取有限实值，也可取广义实值。当r(f，4)5 是费用。，(f，n)的含义随具体应用问题的不同而有所不同。可分为期望总报酬的(包括折扣的，正的和负的等)和平均的等多种。 3 第一章绪论 Howard是第一个研究平均准则的作者，他所提出的策略迭代法是在算法方面的第一个晕程碑。另外，他证明了对于有限状态集和决策集，其策略迭代法所得到的平稳策略在平稳策硌范围内是最优的。DerJIlan[10] and 及Viskov Shiryaev[43]分别独立地证明了策略迭代法所得到的平稳策略在整个策略范围内也是最优的。[2]则对理论方面进行了开创性的研究，对有限(状态和决策的)折扣的马尔可夫决策过程得到了许多重要结果，同时还提出了研究平均准则的折扣因子消失法(Vanishing Discount Approach)：将平均准则作为折扣准则当折扣因子趋于1(即折扣因子的作用消失)时的极限．证明了存在一个当折扣因子充分接近于1时均为折扣最优的平稳策略，这种类型的最优现在称之为Blackwell and 最优。在HeymanSobel[26]中使用Tauberian定理也讨论了折扣准则与平均准则之间的关系，这种方法首先是由Gillette[17]在证明随机对策问题平均准则最优平稳策略的存在性时提出的，文献[10]将之用于证明Blackwell最优策略的平均准则最优性。当状态集或决策集非有限时，Blaekwell最优策略不一定存在。实际上，此时的平均最优策略也 and 不一定存在(见Hu Liu[30]第五章例l。1)。平均准则比折扣准则要涉及到更多的马氏过程的性质，对它的研究要复杂一些，同时，其内容也更丰富一些。Bather[3]等在一定条件下证明了存在最优策略， Derman[9]研究了可数状态集、有限决策集的马尔可夫决策过程，提出了平均准则最优不等式，其作用与折扣准则中的最优方程相同。Ross[34] 将Blackwell的折扣因子消去法用于从折扣最优方程获得平均最优方程。1989年，Sennott[35]更进一步提出了平均准则最优不等式的概念，其作用与平均最优方程相同，而条件更弱。这里我们再着重介绍一下研究平均准则的方法：研究平均准则的常用方法就是上面所提及的折扣因子消去法。它首先是Blackwell在[2]中提出的，对于有限马尔可夫决策过程， B1ackwelll利用折扣准则函数与平均准则函数之间的关系，运用阿贝尔 4 第一章绪论 (Abel)定理证明了存在一个最优策略。另一方面，Taylor[40]针对一个马尔可夫序贯问