马尔可夫决策规划3.docVIP

  • 8
  • 0
  • 约3.23千字
  • 约 10页
  • 2015-08-17 发布于北京
  • 举报
马尔可夫决策规划3.doc

马尔可夫决策规划 第三讲 马尔可夫决策规划 § 3.1 机器维修问题 例3.1 (机器维修最优策略问题) 设等周期(如一天)地考虑一台运行的机器,在每周期初始时刻观察它的运行情况。每次观察时,机器可处于以下两个状态之一:正常运行(记作)或出了故障(记作)。在任一周期,若机器正常运行可得收益10元,且到下一周期初,仍处于正常运行的概率为0.7,处于出故障的概率为0.3。处于正常运行状态时,可用的行动只有一个,即继续生产(记作)。若处于故障状态,则有两个行动可供选择:快修(记作)和常规修理(记作)。在快修时,需付费用5元(即收益为-5元),而该时段能修复为正常运行状态的概率为0.6;在常规修理时,需付费用2元,且在该时段能修复的概率为0.4。 问题是:在各个周期初根据观察到的系统实际所处的状态,如何选取行动才能使整个考察期内的某种期望收益达到最大。 [解]容易看出,机器可处于两种状态,记状态空间,每种状态下可采用行动方案有。这里,用表示在时刻t观察到系统状态为i,选用方案a,于t+1时刻转移到状态j的概率;表示在时刻t观察到系统状态为i,选用方案a时获得的收益。其中,与都与时刻t以前系统的历史无关,具体取值见表3.1表 3.1 转移概率与报酬 状态(i) 行动(a) 转移概率j|i, a) 报酬(元) ra) j=1 j=2 1 a1 0.7 0.3 10 2 a2 0.

文档评论(0)

1亿VIP精品文档

相关文档