ch动态规划的基本方法.ppt

  1. 1、本文档共149页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
解:为三台机器分配改造拨款,设拨款顺序为A, B, C,阶段序号反向编号为 k,即第一阶段计算给机器 C 拨款的效果。 设 sk 为第 k 阶段剩余款,则边界条件为 s3=5; 设 xk 为第 k 阶段的拨款额; 状态转移方程为 sk-1=sk-xk; 目标函数为 max R=(1-PA)(1-PB)(1-PC) 仍采用反向递推 第一阶段 :对机器 C 拨款的效果 R1(s1,x1)=d1(s1,x1)? R0(s0,x0)= d1(s1,x1) 第一阶段最优决策表 第二阶段 :对机器 B, C 拨款的效果 由于机器 A 最多只需 3 万元,故 s2 ? 2 递推公式: R2(s2,x2)=d2(s2,x2)? R1(s1,x1*) 例:R2(3,2)=d2(3,2)? R1(1,1)=(1-0.2) ?0.9=0.72 得第二阶段最优决策表 第二阶段最优决策表 第三阶段 :对机器 A, B, C 拨款的效果 边界条件:s3 = 5 递推公式: R3(s3,x3)=d3(s3,x3)? R2(s2,x2*) 例:R3(5,3)=d3(5,3)? R2(2,2)=(1-0.05) ?0.64=0.608 得第三阶段最优决策表 回溯 :有多组最优解。 I:x3=1, x2=3, x1=1, R3=0.8 ?0.9 ?0.9=0.648 II:x3=2, x2=2, x1=1, R3= 0.9?0.8?0.9=0.648 III: x3=2, x2=3, x1=0, R3= 0.9?0.9?0.8 =0.648 马尔可夫决策规划 马尔可夫决策规划简称马氏决策规划,其主要解决随机系统多阶段决策问题。 确定型系统与随机型系统的区别在于系统的状态转移过程是确定的还是随机的(但有某种随机规律)。 确定型系统,当第k阶段的状态 与决策 确定后,第k+1阶段的状态 就完全确定了。对整个过程来说,若初始状态 给定,又给定某一策略 ,则整个过程就完全确定了。 在随机系统中,即使给定第k段的状态 和 ,第 k+1段的状态也不能完全确定,而是一个随机变量,只 知道其概率分布。在初始状态 给定时,相应策略为 ,其中 为系统在第k段的状态集合 表明 要对第k段状态的一切可能值给定相应的决策。 一、马尔可夫过程 定义:有一类动态随机系统,其系统状态的转移规律具有无后效性,即已知现时系统所处 的状态,采取决策后虽不能预知下次系统将转 移到哪个状态,但下次转移到的状态所服从的 概率规律是已知的,且与系统之前的发展历史 无关,称这种系统状态的转移规律具有马尔可 夫性质,称这种过程为马尔可夫过程。 考虑一种简单的马氏过程,即状态和时间参数都是离散的马氏过程 假定相继两次转移之间的时间间隔为常数1;系统是有限的,即有N个状态,标以1至N编号。记系统在时刻t处于状态i,而在下一时刻t+1转移到状态j的概率为 应有 其中 表示系统逗留在状态i的概率,称 为状态转移矩阵。 例:有一工厂为市场生产某种产品,每月月初对产品 的销售情况进行一次检查,其结果又二:销路好(记 为状态1);也可能销路差(记为状态2)。若处于状 态1,由于各种随机因素的干扰,下月初仍处于销路好的概率为0.5,转为销路差的概率为0.5;若处于状态2 则下月初转为销路好的概率为0.4,仍处于销路差的概 率为0.6。则状态转移矩阵为 二、赋值马氏过程 定义:在具有N个状态的马氏过程,当它在任意时刻 从状态i 转移到状态j时可以获得相应的效益,记为 。 这种马氏过程随着状态转移可得到一系列的报酬(效 益),称其为赋值马氏过程。称 为报酬矩阵。 例:上例中工厂若某月初销路好,下月初仍销路 好可获利9千元,下月初转为销路差可获利3千元 若某月初销路差,下月初转为销路好可获利3千元,下月仍为销路差要亏本7千元。则报酬矩阵为 下面考虑系统经过一定阶段的运行后的总期望报酬。 记 为由状态i 做出一次转移的期望报酬,则有 称 为一次转移的期望报酬向量。记 为系统由状态i经过n次转移之后的总期望报酬,则 其中

文档评论(0)

sxahwd + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档