运筹学教程五动态规划试卷.ppt

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
?管理与人文学院 忻展红 1999,4 * 第五章 动态规划 不要过河拆桥 * 动态规划 Dynamic programming 五十年代贝尔曼(B. E. Bellman)为代表的研究成果 属于现代控制理论的一部分 以长远利益为目标的一系列决策 最优化原理,可归结为一个递推公式 5.1 动态规划的最优化原理及其算法 5.1.1 求解多阶段决策过程的方法 例5.1.1 最短路问题 * 决策树法 可以枚举出20条路径,其中最短的路径长度为16 * 例5.1.1 最短路问题 表现为明显的阶段性 一条从A 到B 的最短路径中的任何一段都是最短的 每步的决策只与相邻阶段状态有关,而与如何达到这一状态无关 因此我们可以从B向回搜索最短路 标记法 如何找出最短路径 * 5.1.2 动态规划的基本概念及递推公式 1、基本概念 1)阶段;把多阶段决策问题分为若干个相互联系的阶段,常用k表示 2)状态:每一阶段开始时所处的状态。某一阶段某一状态用状态变量s k 表示,第k阶段的所有状态集合用S k表示,各阶段所有状态集合用S表示,则 s k? S k?S, 动态规划中的状态必须满足无后效性。 3)决策:某一阶段k某一状态s k所作出的决策用决策变量x k(s k)表示,第k阶段状态s k的允许决策集合用D k(s k)表示,第k阶段各状态的允许决策集合用D k表示,所有各阶段各状态的允许决策集合用D 表示。则有 x k(s k)? D k(s k)? D k ? D 4)策略:指某一阶段某一状态到终点的顺序排列的决策组合的集合。用 Pk(s k)={ x k(s k),x k-1(s k-1),…,x 1(s 1)} 表示从第k阶段状态s k出发到终点的一个子策略。从第k阶段状态s k出发 到终点的允许策略集合为P。则Pk(s k)?P。 5)状态转移方程:反映相邻两个阶段的状态和决策变量之间的相互关系 s k-1=Tk[s k,x k(s k)] = g(sk, xk) * 5.1.2 动态规划的基本概念及递推公式 6)直接效果函数:它是状态变量s k和决策变量x k(s k)的函数,记为: d k[s k,x k(s k)]。 7)总效果函数:从第k阶段状态s k出发到终点的子策略 Pk(s k)的函数。记为:Vk= Vk [Pk(s k)] 8)最优效果函数:表示在某一阶段某一状态下,采取最优策略后到终点的最优效果值。记为 2、最优化原理和动态规划递推关系 1、最优化原理:最优策略的子策略也是最优的。 2、递推关系: * 3、动态规划的步骤 1)划分阶段 将所研究的问题划分为K个阶段,并对阶段进行编号。一般按逆向编号; 2)确定状态变量s k 正确确定状态变量s k ,使它既能描述过程的演变又能满足无后效性; 3)确定决策变量x k(s k)及其允许的决策集合 D k(s k); 4)写出状态转移方程 s k-1 = g (s k ,x k); 5)确定直接效果函数 6)列出最优指标函数的递推关系式 7)确定边界条件 * 5.2 动态规划模型举例 5.2.1 资源分配问题 例 5.2.1某公司有4个推销员在北京、上海和广州三个市场推销货物,这三个市场里推销人员数与收益的关系如表5.2.1所示,试作出使总收益最大的分配方案。 表5.2.1推销人员数与收益 推销员 市场 0 1 2 3 4 北京 20 32 47 57 66 上海 40 50 60 71 82 广州 50 61 72 84 83 解 1、划分阶段 分成3个阶段,即K=3,并按逆向编号,广州k=1,上海k=2,北京k=3,分配推销员的优先顺序为北京—上海—广州; 2、确定状态变量s k 状态变量s k 表示第k阶段初尚未分配的推销员数。显然有 s3= 4,s2和s1的可能取值范围为0 — 4。 * 3、确定决策变量x k 决策变量x k 表示分配给第k阶段市场的推销员数。显然有,x k ? s k ; 4、确定状态转移方程 根据前面定义的状态变量s k和决策变量x k的意义,可得其状态转移方程为s k-1 =s k - x k ; 5、确定直接效果函数 d k (s k,x k) 它表示第k阶段初有推销员数s k,分配给第k市场x k个推销员时所产生的直接效益。这些效益指标由表

文档评论(0)

1112111 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档