- 1、本文档共37页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第三编 随机动态规划 第一章 随机决策过程的几个模型 ? § 1 随机道路问题 一 、 简单模型的三种类型的解 图 35 是一个简单的网络,弧上的数字是通过该弧的费用。现要求以最小 的费用从结点 A 行进到直线 B 。在每个结点都有两个决策,对角向上或向下一 个旅行者在某个结点被通知向上走(决策 U ),由于种种原因他只能以等于 3/4 的概率记住这个通知向上走,而以 1/4 的概率忘掉这个通知对角向下走。 反之,如果在这个结点通知对角向下走(决策 D ),它将以 3/4 的概率向下 走而以 1/4 的概率向上走。这个旅行者在每个结点都遵守这样的规则,而不 管在前面的结点是遵守通知还是忘记通知。结果,不管通知如何,都不确定 这个旅行者行走的路线,而只能求出他走各种可能道路的概率。我们的目标 是使这个旅行者的期望费用最小。 A 10 0 0 0 0 1200 0 12 12 0 0 0 x y B 图 35 ? 现在出现的问题是,这个问题采取什么形式的解?因为这是随机 问题,策略和决策序列是完全不同的事情,决策序列规定一个决策和 它前面的决策结果是无关的,而策略则与前面的结果有关。 最忧策略序列比较容易叙述,并不要求旅行者在每一个阶段注意 他到底在什么地方,即状态如何。而最优策略总是产生至少和最优决 策序列一样的小(通常是小些)的期望费用。这是因为策略利用了在 每一个状态的所有信息,具有更大的适应性。当然也可以将最优决策 序列想像成受下面规定约束的最优策略:在每个阶段的所有决策必须 相同而不管状态如何。 考虑到控制理论中的术语,称由决策序列确定的解是 开环控制 , 由 策略确定的解是 反馈控制 。 ? 首先求图 35 的最优开环控制(决策序列)。这只要研究全部共 8 个由 3 个决策构成的决策序列。选出具有期望费用最小的决策序列来 即可。例如在确定型中这个问题的最优决策序列 D-U-D 以 27/64 的概 率时间产生由在“向下、向上、向下”构成的道路,费用为 0 ;以 9/6 的概率时间产生由“向上、向上、向下”构成的道路,费用是 10 ;以 9/64 的概率时间产生由“向下、向上、向上”构成的道路,费用是 1200 等等。将 8 个费用与它们相应的概率相乘再相加,得到这个决策序列 的期望费用: 4 1 192 1210 64 1 ) 10 10 12 ( 64 3 ) 1200 12 10 ( 64 9 0 64 27 ? ? ? ? ? ? ? ? ? ? ? DUD E 8 个决策序列的期望费用列在表 17 中。决策序列 U-D-U 具有最小的期 望费用 。 16 3 120 ? 其次,利用 DP 方法求最优反馈控制,定义最优期望值函数: s ( x , y )=从顶点( x , y )出发且利用最优反控制策略时其余过 程的费用。 ( 3.1.1 ) 如果在( x , y )选择决策 U ,就以 3/4 转到( x + 1 , y + 1 );第一 步费用是 a u ( x , y )其余期望费用是 s ( x + 1 , y + 1 );以概率 1/4 转 到( x + 1 , y - 1 ),第一步费用是 a d ( x , y ),其余期望费用是 s ( x + 1 , y - 1 )。如果在( x , y ) 选择决策 D ,则情况颠倒。利用最优 化原理的随机形式(下面将严格证明其正确性) 得递推关系: ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ) 1 , 1 ( ) , ( ) 4 / 3 ( ) 1 , 1 ( ) , ( ) 4 / 1 ( : ) 1 , 1 ( ) , ( ) 4 / 1 ( ) 1 , 1 ( ) , ( ) 4 / 3 ( : min ) , ( y x s y x a y x s y x a D y x S y x a y x s y x a U y x s d u d u ( 3.1.2 ) ? 边界条件是 S ( 3 , 3 )= 0 , s ( 3 ,
您可能关注的文档
- 血压计和血压表检定作业指导书.docx
- 血压测量及治疗记录表.docx
- 血常规检验项目及意义.docx
- 血液中dna提取的原理.docx
- 血浆置换操作规范及评分标准.docx
- 血液交叉感染预防规定.docx
- 血氧饱和度探头检测的基本原理.docx
- 血清丙氨酸氨基转移酶ifcc推荐方法测定.docx
- 血清总胆固醇酶试剂法测定法.docx
- 血清白蛋白alb溴甲酚绿bcg法测定.docx
- 一病一品护理汇报(手工精品图文).ppt
- 国家义务教育质量监测四年级心理健康测试卷3+问卷(通用版附答案).docx
- 国家义务教育质量监测四年级心理健康测试卷2+问卷(通用版附答案).docx
- 国家义务教育质量监测四年级心理健康测试卷5+问卷(通用版附答案).docx
- 国家义务教育质量监测四年级心理健康测试卷1+问卷(通用版附答案).docx
- 国家义务教育质量监测四年级心理健康测试卷4+问卷(通用版附答案).docx
- 13(猫)第3课时 课件+公开课一等奖创新教学设计.docx
- 孙权劝学 (同步公开课一等奖创新教学设计).docx
- 第17课 要是你在野外迷了路 公开课一等奖创新教学设计.docx
- 统编版(五四制)11古诗二首 池上 公开课一等奖创新教学设计.docx
文档评论(0)