连续时间马尔可夫决策过程平均最优的新条件.pdfVIP

连续时间马尔可夫决策过程平均最优的新条件.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第一卓绪论 统,这里n可取有限多个值,如H;01,2,…Ⅳ,也可取所有的非负整数。 一个离散时间马尔可夫决策过程的模型由如下的五重组组成: 忸,爿OXP。-Ir(f,dXⅣ,f,J∈s,n∈爿(f)} (1—1) 其中各元的含义如下: 1.5是系统所有可能的状态所组成的非空的状态集,即系统的状念 空间,它可以是有限的、可列的或任意的非空集。我们用小写的字母f,,,≈ 等来表示状态。 2.对状态f∈s,爿(f)是在状态f处可用的决策集,它是非空的;当 不特别指出时亦假定它是可数集。常用口来表示决策。 3.当系统在决策时刻点n处于状态f,采取决策口∈一(f)时,则系统 在下一决策时刻点n+1时处于状态j的概率为p。(a),假定它与决策时 刻n无关。称p;b“0lf,,∈s,n∈爿O)}为系统的状态转移概率族,于是, 对f∈s,口∈彳(f),有荟n,仁)=1,即恼u(口lJ∈s}为一随机向量。范围 稍广一点的是扫叫(口l,∈s}为次随机向量的情形,即善pf,』(n)s1。在大 多数情况下,这两种情形可统一考虑。 4.当系统在决策时刻点n处于状态f,采取决策口∈爿(f)时,系统于 在r上的一个广义函数r:r一[_。。,+*],于是我们常称,为报酬函数。, o时,它表示的实际上 可以只取有限实值,也可取广义实值。当r(f,4)5 是费用。,(f,n)的含义随具体应用问题的不同而有所不同。 可分为期望总报酬的(包括折扣的,正的和负的等)和平均的等多种。 3 第一章绪论 Howard是第一个研究平均准则的作者,他所提出的策略迭代法是在 算法方面的第一个晕程碑。另外,他证明了对于有限状态集和决策集, 其策略迭代法所得到的平稳策略在平稳策硌范围内是最优的。DerJIlan[10] and 及Viskov Shiryaev[43]分别独立地证明了策略迭代法所得到的平 稳策略在整个策略范围内也是最优的。[2]则对理论方面进行了开创性的 研究,对有限(状态和决策的)折扣的马尔可夫决策过程得到了许多重 要结果,同时还提出了研究平均准则的折扣因子消失法(Vanishing Discount Approach):将平均准则作为折扣准则当折扣因子趋于1(即 折扣因子的作用消失)时的极限.证明了存在一个当折扣因子充分接近 于1时均为折扣最优的平稳策略,这种类型的最优现在称之为Blackwell and 最优。在HeymanSobel[26]中使用Tauberian定理也讨论了折扣准 则与平均准则之间的关系,这种方法首先是由Gillette[17]在证明随机 对策问题平均准则最优平稳策略的存在性时提出的,文献[10]将之用于 证明Blackwell最优策略的平均准则最优性。当状态集或决策集非有限 时,Blaekwell最优策略不一定存在。实际上,此时的平均最优策略也 and 不一定存在(见Hu Liu[30]第五章例l。1)。平均准则比折扣准则要 涉及到更多的马氏过程的性质,对它的研究要复杂一些,同时,其内容 也更丰富一些。Bather[3]等在一定条件下证明了存在最优策略, Derman[9]研究了可数状态集、有限决策集的马尔可夫决策过程,提出了 平均准则最优不等式,其作用与折扣准则中的最优方程相同。Ross[34] 将Blackwell的折扣因子消去法用于从折扣最优方程获得平均最优方 程。1989年,Sennott[35]更进一步提出了平均准则最优不等式的概念, 其作用与平均最优方程相同,而条件更弱。 这里我们再着重介绍一下研究平均准则的方法: 研究平均准则的常用方法就是上面所提及的折扣因子消去法。它首 先是Blackwell在[2]中提出的,对于有限马尔可夫决策过程, B1ackwelll利用折扣准则函数与平均准则函数之间的关系,运用阿贝尔 4 第一章绪论 (Abel)定理证明了存在一个最优策略。另一方面,Taylor[40]针对一 个马尔可夫序贯问

文档评论(0)

lh2468lh + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档