- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第一卓绪论
统,这里n可取有限多个值,如H;01,2, Ⅳ,也可取所有的非负整数。
一个离散时间马尔可夫决策过程的模型由如下的五重组组成:
忸,爿OXP。-Ir(f,dXⅣ,f,J∈s,n∈爿(f)} (1—1)
其中各元的含义如下:
1.5是系统所有可能的状态所组成的非空的状态集,即系统的状念
空间,它可以是有限的、可列的或任意的非空集。我们用小写的字母f,,,≈
等来表示状态。
2.对状态f∈s,爿(f)是在状态f处可用的决策集,它是非空的;当
不特别指出时亦假定它是可数集。常用口来表示决策。
3.当系统在决策时刻点n处于状态f,采取决策口∈一(f)时,则系统
在下一决策时刻点n+1时处于状态j的概率为p。(a),假定它与决策时
刻n无关。称p;b“0lf,,∈s,n∈爿O)}为系统的状态转移概率族,于是,
对f∈s,口∈彳(f),有荟n,仁)=1,即恼u(口lJ∈s}为一随机向量。范围稍广一点的是扫叫(口l,∈s}为次随机向量的情形,即善pf,』(n)s1。在大
多数情况下,这两种情形可统一考虑。
4.当系统在决策时刻点n处于状态f,采取决策口∈爿(f)时,系统于
本阶段获得的报酬为r(f,n)。若记rj{(1,n)li∈s,n∈4(i计,则r是定义
在r上的一个广义函数r:r一[_。。,+*],于是我们常称,为报酬函数。,
可以只取有限实值,也可取广义实值。当r(f,4)5 o时,它表示的实际上
是费用。,(f,n)的含义随具体应用问题的不同而有所不同。
5.形为准则(criterion)函数(也称为目标(Objective)函数),
可分为期望总报酬的(包括折扣的,正的和负的等)和平均的等多种。
3
第一章绪论
Howard是第一个研究平均准则的作者,他所提出的策略迭代法是在
算法方面的第一个晕程碑。另外,他证明了对于有限状态集和决策集,
其策略迭代法所得到的平稳策略在平稳策硌范围内是最优的。DerJIlan[10]
及Viskov and Shiryaev[43]分别独立地证明了策略迭代法所得到的平稳策略在整个策略范围内也是最优的。[2]则对理论方面进行了开创性的研究,对有限(状态和决策的)折扣的马尔可夫决策过程得到了许多重要结果,同时还提出了研究平均准则的折扣因子消失法(Vanishing Discount Approach):将平均准则作为折扣准则当折扣因子趋于1(即折扣因子的作用消失)时的极限.证明了存在一个当折扣因子充分接近于1时均为折扣最优的平稳策略,这种类型的最优现在称之为Blackwell最优。在Heyman and Sobel[26]中使用Tauberian定理也讨论了折扣准则与平均准则之间的关系,这种方法首先是由Gillette[17]在证明随机对策问题平均准则最优平稳策略的存在性时提出的,文献[10]将之用于证明Blackwell最优策略的平均准则最优性。当状态集或决策集非有限时,Blaekwell最优策略不一定存在。实际上,此时的平均最优策略也不一定存在(见Hu and Liu[30]第五章例l。1)。平均准则比折扣准则要涉及到更多的马氏过程的性质,对它的研究要复杂一些,同时,其内容也更丰富一些。Bather[3]等在一定条件下证明了存在最优策略,Derman[9]研究了可数状态集、有限决策集的马尔可夫决策过程,提出了
平均准则最优不等式,其作用与折扣准则中的最优方程相同。Ross[34]
将Blackwell的折扣因子消去法用于从折扣最优方程获得平均最优方
程。1989年,Sennott[35]更进一步提出了平均准则最优不等式的概念,
其作用与平均最优方程相同,而条件更弱。
这里我们再着重介绍一下研究平均准则的方法:
研究平均准则的常用方法就是上面所提及的折扣因子消去法。它首
先是Blackwell在[2]中提出的,对于有限马尔可夫决策过程,
B1ackwelll利用折扣准则函数与平均准则函数之间的关系,运用阿贝尔
第一章绪论
(Abel)定理证明了存在一个最优策略。另一方面,Taylor[40]针对一
个马尔可夫序贯问题,通过研究相对值函数H。(f)(如(4—1)所定义)当
折扣因子口t 1时的渐近性质,而将折扣因子消去法用于从折扣最优方程
导出平均最优方程。Feinberg【14】对折扣因子消去法作了进一步的研究,
并证明了在De瑚an【11】中的条件下“。(f)关于a一致有界,通过令n t 1证
明了平均最优方程有有界解。这使得折扣因子消去法的适用范围得以拓
展并变得非常广泛。其后,【11】中条件的各种变异提了出来,strauch【39】
研究了平均准则和折扣准则下的无界报酬半马氏决策过程,利用折扣因
子消去法,在比较强的条件下证明了一些结果。Thomas【41】是这方面的
综述。以上
您可能关注的文档
- 基于统计深度对多元数据地非参数检验.docx
- 几个新的重尾族上随机变量和的大偏差.docx
- 一类反应扩散方程组的新的有限差分算法.docx
- 矩限制条件下随机变量和地强大数定律地若干新结果.docx
- 广义互补问题的误差界估计与新的求解算法.docx
- 非负矩阵最大特征值的估计法.docx
- 抛物型偏微分方程地几类新地并行算法与其收敛性分析.docx
- 安全多方计算以及一个新的可公开验证秘密分离方案.docx
- 一些新的非线性演化方程及Darboux变换.docx
- NFM位相理论与与之有关地若干新表象.docx
- 人教版数学九年级上册《 二次函数》说课稿(共19张PPT).ppt
- 人教版八年级上册 12.2.2三角形全等的判定 “边角边”判定三角形全等 (共22张PPT).ppt
- 人教版初中数学2011课标版八年级上册第十二章12.2 三角形全等的判定 课件(共16张PPT).ppt
- 人教版九年级第十单元课题1浓硫酸1 (共18张PPT).ppt
- 人教版初中数学七年级上册 1.4 有理数的乘除法(共22张PPT).ppt
- 人教版八年级物理上册第1章 第2节运动的描述习题课件(共20张PPT).ppt
- 人教版九年级课题2酸和碱之间会发生什么反应(共21张PPT).ppt
- 人教版初中物理2011课标版 九年级 第十八章 电功率第三节 测量小灯泡的电功率(共25张PPT).pptx
- 人教版初中数学2011课标版九年级上册第二十四章24.1圆的有关性质(共17张PPT).ppt
- 人教版初中数学2011课标版九年级上册21.2解一元二次方程(共22张PPT).pptx
最近下载
- 脑卒中管理规范 2.07急性出血性脑卒中急诊治疗流程.pdf VIP
- 《水的组成》PPT课件50.pptx VIP
- 2025浙江余姚农商行秋季校园招聘笔试历年典型考题及考点剖析附带答案详解.docx
- T_CWAN 0131-2025 焊缝疲劳分析 等效结构应力法.docx VIP
- The ARLCNI 2035 Scenarios:AI-Influenced Futures in the Research Environmen英文调查报告.docx VIP
- 招标代理服务承诺.docx VIP
- 道路拆除工程安全管理措施.docx VIP
- 断指再植术后护理.ppt VIP
- 火法冶炼与湿法冶炼的比较.pptx VIP
- 印刷油墨管理规范.pdf VIP
原创力文档


文档评论(0)