1随机决策过程的几个模型.ppt

  1. 1、本文档共37页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第三编 随机动态规划 第一章 随机决策过程的几个模型 ? § 1 随机道路问题 一 、 简单模型的三种类型的解 图 35 是一个简单的网络,弧上的数字是通过该弧的费用。现要求以最小 的费用从结点 A 行进到直线 B 。在每个结点都有两个决策,对角向上或向下一 个旅行者在某个结点被通知向上走(决策 U ),由于种种原因他只能以等于 3/4 的概率记住这个通知向上走,而以 1/4 的概率忘掉这个通知对角向下走。 反之,如果在这个结点通知对角向下走(决策 D ),它将以 3/4 的概率向下 走而以 1/4 的概率向上走。这个旅行者在每个结点都遵守这样的规则,而不 管在前面的结点是遵守通知还是忘记通知。结果,不管通知如何,都不确定 这个旅行者行走的路线,而只能求出他走各种可能道路的概率。我们的目标 是使这个旅行者的期望费用最小。 A 10 0 0 0 0 1200 0 12 12 0 0 0 x y B 图 35 ? 现在出现的问题是,这个问题采取什么形式的解?因为这是随机 问题,策略和决策序列是完全不同的事情,决策序列规定一个决策和 它前面的决策结果是无关的,而策略则与前面的结果有关。 最忧策略序列比较容易叙述,并不要求旅行者在每一个阶段注意 他到底在什么地方,即状态如何。而最优策略总是产生至少和最优决 策序列一样的小(通常是小些)的期望费用。这是因为策略利用了在 每一个状态的所有信息,具有更大的适应性。当然也可以将最优决策 序列想像成受下面规定约束的最优策略:在每个阶段的所有决策必须 相同而不管状态如何。 考虑到控制理论中的术语,称由决策序列确定的解是 开环控制 , 由 策略确定的解是 反馈控制 。 ? 首先求图 35 的最优开环控制(决策序列)。这只要研究全部共 8 个由 3 个决策构成的决策序列。选出具有期望费用最小的决策序列来 即可。例如在确定型中这个问题的最优决策序列 D-U-D 以 27/64 的概 率时间产生由在“向下、向上、向下”构成的道路,费用为 0 ;以 9/6 的概率时间产生由“向上、向上、向下”构成的道路,费用是 10 ;以 9/64 的概率时间产生由“向下、向上、向上”构成的道路,费用是 1200 等等。将 8 个费用与它们相应的概率相乘再相加,得到这个决策序列 的期望费用: 4 1 192 1210 64 1 ) 10 10 12 ( 64 3 ) 1200 12 10 ( 64 9 0 64 27 ? ? ? ? ? ? ? ? ? ? ? DUD E 8 个决策序列的期望费用列在表 17 中。决策序列 U-D-U 具有最小的期 望费用 。 16 3 120 ? 其次,利用 DP 方法求最优反馈控制,定义最优期望值函数: s ( x , y )=从顶点( x , y )出发且利用最优反控制策略时其余过 程的费用。 ( 3.1.1 ) 如果在( x , y )选择决策 U ,就以 3/4 转到( x + 1 , y + 1 );第一 步费用是 a u ( x , y )其余期望费用是 s ( x + 1 , y + 1 );以概率 1/4 转 到( x + 1 , y - 1 ),第一步费用是 a d ( x , y ),其余期望费用是 s ( x + 1 , y - 1 )。如果在( x , y ) 选择决策 D ,则情况颠倒。利用最优 化原理的随机形式(下面将严格证明其正确性) 得递推关系: ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ) 1 , 1 ( ) , ( ) 4 / 3 ( ) 1 , 1 ( ) , ( ) 4 / 1 ( : ) 1 , 1 ( ) , ( ) 4 / 1 ( ) 1 , 1 ( ) , ( ) 4 / 3 ( : min ) , ( y x s y x a y x s y x a D y x S y x a y x s y x a U y x s d u d u ( 3.1.2 ) ? 边界条件是 S ( 3 , 3 )= 0 , s ( 3 ,

文档评论(0)

jinzhuang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档