馬尔可夫决策规划3.docVIP

下载本文档

2
0
约 9页
2017-01-18 发布于重庆
举报
版权申诉

馬尔可夫决策规划3.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

馬尔可夫决策规划3

马尔可夫决策规划第三讲马尔可夫决策规划 § 3.1 机器维修问题例3.1 (机器维修最优策略问题) 设等周期(如一天)地考虑一台运行的机器，在每周期初始时刻观察它的运行情况。每次观察时，机器可处于以下两个状态之一：正常运行(记作)或出了故障(记作)。在任一周期，若机器正常运行可得收益10元，且到下一周期初，仍处于正常运行的概率为0.7，处于出故障的概率为0.3。处于正常运行状态时，可用的行动只有一个，即继续生产(记作)。若处于故障状态，则有两个行动可供选择：快修(记作)和常规修理(记作)。在快修时，需付费用5元(即收益为-5元),而该时段能修复为正常运行状态的概率为0.6；在常规修理时，需付费用2元，且在该时段能修复的概率为0.4。问题是：在各个周期初根据观察到的系统实际所处的状态，如何选取行动才能使整个考察期内的某种期望收益达到最大。 [解]容易看出，机器可处于两种状态，记状态空间，每种状态下可采用行动方案有。这里，用表示在时刻t观察到系统状态为i，选用方案a，于t+1时刻转移到状态j的概率；表示在时刻t观察到系统状态为i，选用方案a时获得的收益。其中，与都与时刻t以前系统的历史无关，具体取值见表3.1表 3.1 转移概率与报酬状态（i）行动（a）转移概率j|i, a) 报酬（元）ra) j=1 j=2 1 a1 0.7 0.3 10 2 a2 0.6 0.4 -5 a3 0.4 0.6 -2 决策规则(或称方案选择规则) f如下：当观察到系统状态为1时，选择方案；当观察到系统状态为2时，选择方案。即。类似地,可令决策规则g表示如下映射。当时，从规则中选用一个决策，记为 (相应得出选用的方案)，从状态i出发获得收益；当时，机器转移到状态j的概率为，同样从中选用一个决策，记为。由于状态转移是随机的，因而获得的收益也是随机的，其期望收益为。当时，机器转移到状态k的概率为。再从中选用一个决策，记为。依次下去，得一决策序列 (相应可得到方案序列)，将其记为，称为策略。由于收益是从开始计算的，考虑到经济上利率的影响，则在t时段的单位收益可折合成初始时刻时的值,其中。因此时从状态i出发，长期的期望折扣总收益为就是衡量本问题策略优劣的准则。当系统状态转移律已知时，它显然就是初始状态i和策略的函数。本问题就是寻求这样的方案序列,使获得最大值。§3.2 受控的马氏链 1、一个库存问题的讨论假设有一个电视机经销商店，根据历史资料，已知在不缺货的情况下，每日销售k台的概率为pk，k=0,1,2,……。如果该店每月初进货M台，记xn表示第n个月底库存的电视机台数，则{xn, n=0,1,2,……}为齐次马氏链。一步转移概率矩阵为。对，第n月底是0台、第n+1月底也是0台，实际销售M台，并售完，所以于是，上述就得到了一个受控马氏链。 2、模型描述通常，一个。其中， xt表示时刻t系统的状态，S是被观察系统的所有可能状态的集合；……}表示所有观测系统的时刻的集合； A(或At)为所有（决策）行动方案a的集合；为所有可能的转移概率的集合；记ht={i0,a0(i0); i1,a1(i1); ……; it,at(it)}，称ht为直到时刻t的一个历史。记, 称Ht为系统直到时刻t的全部历史集合。注：共有个历史。受控马氏链, 简单来说具备条件： 1）时刻t选用的决策只与时刻t系统的状态xt有关，而与Ht-1中的元素无关。 2）系统在时刻t+1的状态xt+1的分布只与时刻t系统的状态xt以及选用的决策at有关，而与Ht-1中的元素无关。定义3.1决策函数（也称决策）：对于时刻t的决策at(i)，当i跑遍整个S时，我们得到函数ft：S→A为at(i)=ft(i)，所以一个决策函数与一个决策实际是等价的。记F为所有决策函数的集合。 3、再论模型一个受控的马氏链是由如下四个元素组成的系统：。其中：为系统在时刻t选用决策函数时，系统转移到时刻t+1的一步转移概率矩阵，记为。定义3.2：一个决策序列称为是一个马氏策略，是指对任意，fN的选取与f1,f2,……,fN-1无关。（又名确定型的马氏策略）注（确定型原因）：只要观测到了状态xt=i，则决策at=ft(i)就是确定的，而不是随机变量。记为所有马氏策略的集合。平稳（马氏）策略：一个马氏策略称为是平稳策略，如果fn与n无关，因此一个平稳策略可表为，记F为所有平稳策略的集合。结论：在不计初始分布的情况下，一个（平稳）马氏策略唯一决定一个（齐次）马氏链。说明：定义：在Markov策略中于时刻t选择方案的规则(记为)具有随机性，即在时刻t系统处于时选用方案a的概率为，且，则称这种