馬尔可夫决策规划3.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
馬尔可夫决策规划3

马尔可夫决策规划 第三讲 马尔可夫决策规划 § 3.1 机器维修问题 例3.1 (机器维修最优策略问题) 设等周期(如一天)地考虑一台运行的机器,在每周期初始时刻观察它的运行情况。每次观察时,机器可处于以下两个状态之一:正常运行(记作)或出了故障(记作)。在任一周期,若机器正常运行可得收益10元,且到下一周期初,仍处于正常运行的概率为0.7,处于出故障的概率为0.3。处于正常运行状态时,可用的行动只有一个,即继续生产(记作)。若处于故障状态,则有两个行动可供选择:快修(记作)和常规修理(记作)。在快修时,需付费用5元(即收益为-5元),而该时段能修复为正常运行状态的概率为0.6;在常规修理时,需付费用2元,且在该时段能修复的概率为0.4。 问题是:在各个周期初根据观察到的系统实际所处的状态,如何选取行动才能使整个考察期内的某种期望收益达到最大。 [解]容易看出,机器可处于两种状态,记状态空间,每种状态下可采用行动方案有。这里,用表示在时刻t观察到系统状态为i,选用方案a,于t+1时刻转移到状态j的概率;表示在时刻t观察到系统状态为i,选用方案a时获得的收益。其中,与都与时刻t以前系统的历史无关,具体取值见表3.1表 3.1 转移概率与报酬 状态(i) 行动(a) 转移概率j|i, a) 报酬(元) ra) j=1 j=2 1 a1 0.7 0.3 10 2 a2 0.6 0.4 -5 a3 0.4 0.6 -2 决策规则(或称方案选择规则) f如下:当观察到系统状态为1时,选择方案;当观察到系统状态为2时,选择方案。即。类似地,可令决策规则g表示如下映射。 当时,从规则中选用一个决策,记为 (相应得出选用的方案),从状态i出发获得收益;当时,机器转移到状态j的概率为,同样从中选用一个决策,记为。由于状态转移是随机的,因而获得的收益也是随机的,其期望收益为。当时,机器转移到状态k的概率为。再从中选用一个决策,记为。依次下去,得一决策序列 (相应可得到方案序列),将其记为,称为策略。由于收益是从开始计算的,考虑到经济上利率的影响,则在t时段的单位收益可折合成初始时刻时的值,其中。因此时从状态i出发,长期的期望折扣总收益为 就是衡量本问题策略优劣的准则。当系统状态转移律已知时,它显然就是初始状态i和策略的函数。本问题就是寻求这样的方案序列,使获得最大值。§3.2 受控的马氏链 1、一个库存问题的讨论 假设有一个电视机经销商店,根据历史资料,已知在不缺货的情况下,每日销售k台的概率为pk,k=0,1,2,……。如果该店每月初进货M台,记xn表示第n个月底库存的电视机台数,则{xn, n=0,1,2,……}为齐次马氏链。 一步转移概率矩阵为。对,第n月底是0台、第n+1月底也是0台,实际销售M台,并售完,所以 于是,上述就得到了一个受控马氏链。 2、模型描述 通常,一个。其中, xt表示时刻t系统的状态,S是被观察系统的所有可能状态的集合;……}表示所有观测系统的时刻的集合; A(或At)为所有(决策)行动方案a的集合; 为所有可能的转移概率的集合; 记ht={i0,a0(i0); i1,a1(i1); ……; it,at(it)},称ht为直到时刻t的一个历史。记, 称Ht为系统直到时刻t的全部历史集合。注:共有个历史。 受控马氏链, 简单来说具备条件: 1)时刻t选用的决策只与时刻t系统的状态xt有关,而与Ht-1中的元素无关。 2)系统在时刻t+1的状态xt+1的分布只与时刻t系统的状态xt以及选用的决策at有关,而与Ht-1中的元素无关。 定义3.1决策函数(也称决策):对于时刻t的决策at(i),当i跑遍整个S时,我们得到函数ft:S→A为at(i)=ft(i),所以一个决策函数与一个决策实际是等价的。记F为所有决策函数的集合。 3、再论模型 一个受控的马氏链是由如下四个元素组成的系统:。其中:为系统在时刻t选用决策函数时,系统转移到时刻t+1的一步转移概率矩阵,记为。 定义3.2:一个决策序列称为是一个马氏策略,是指对任意,fN的选取与f1,f2,……,fN-1无关。(又名确定型的马氏策略) 注(确定型原因):只要观测到了状态xt=i,则决策at=ft(i)就是确定的,而不是随机变量。 记为所有马氏策略的集合。 平稳(马氏)策略:一个马氏策略称为是平稳策略,如果fn与n无关,因此一个平稳策略可表为,记F为所有平稳策略的集合。 结论:在不计初始分布的情况下,一个(平稳)马氏策略唯一决定一个(齐次)马氏链。 说明: 定义:在Markov策略中于时刻t选择方案的规则(记为)具有随机性,即在时刻t系统处于时选用方案a的概率为,且,则称这种

文档评论(0)

sd47f8cI + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档