[理学]动态规划运筹学讲义.ppt

下载文档 降价啦

18
0
约7.69千字
约 31页
2018-03-02 发布于浙江
举报
版权申诉
保障服务

[理学]动态规划运筹学讲义.ppt

1、本文档共31页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

[理学]动态规划运筹学讲义

第八章动态规划 Dynamic Programming §1 动态规划问题实例　 §2 动态规划的基本概念 §3 基本原理和基本方程 §4 动态规划的应用 §1动态规划问题实例 §1动态规划问题实例 §1动态规划问题实例用顺序解法求例5.1的最短路 * * 许多问题用动态规划研究求解比线性规划、非线性规划更有效，特别是离散性问题，解析数学无用武之地，而动态规划成为得力工具；某些情况下，用动态规划处理不仅能作定性描述分析，且可利用计算机给出求其数值解的方法。动态规划DP是运筹学的一个分支，是解决多阶段决策过程最优化的一种数学方法（一种分析多阶段决策过程的数学方法），这种方法可根据人们所采取的措施，一步步地控制过程的发展，以实现预定的要求。 1951年美国数学家R.E. Bellman等人根据一类多阶段决策问题的特性，提出了解决这类问题的最优化原理，把多阶段过程转化为一系列单阶段问题逐个求解，并研究了许多实际问题而建立了动态规划。多阶段决策过程由问题的特征可将决策过程按时间、空间等方式分为若干互相联系的不同阶段，在每个阶段有若干种不同方案可供选择，进行决策，每个阶段的决策执行将影响到下一阶段的决策，决策者根据全局最优在每一阶段做出决策，从而使整个过程达到最优例5.1 最短路问题下图为一城市若干单向道路组成的交通图，两点之间连线数字表示两点间的距离，问应该如何选择路线，使A到G点路程最短 A 5 6 3 1 B1 B2 E1 C2 C3 C4 3 8 7 6 C1 E2 E3 D1 D2 D3 F1 F2 G 6 8 3 5 3 3 8 4 2 2 1 2 3 3 6 3 5 5 2 6 3 4 1 2 3 4 5 6 A→Bi Bi → Cj Cj → Dk Dk→ El El → Fm Fm → G (i=12) (j=1,…,3) (k=1,2,3) (l=1,2,3) (m=1,2,3) 6阶段图8-1 例5.2 机器负荷分配问题某种机器可以在高低两种不同的负荷下进行生产．在高负荷下进行生产时，产品的年产量g和投入生产的机器数量u的关系为 g＝g(u), 这时机器的年完好率为a（0a1)．在低负荷下生产时，产品的年产量h和投入生产的机器数量v的关系为h＝h(v), 这时机器的年完好率为b（ab1）．假定开始生产时完好的机器数量为s1，要求制定一个五年计划,在每年开始时决定机器在两种不同负荷下生产的数量,使五年内产品的总产量最高。状态1 s1 完好机器数阶段1 决策高负荷机器数状态2 s2 阶段2 决策高负荷机器数状态2 s3 阶段3 决策高负荷机器数状态2 s4 阶段4 决策高负荷机器数状态2 s5 阶段5 决策高负荷机器数 s6 图8-2 §2 动态规划的基本概念 (1)阶段（stage）和阶段变量把所研究多段决策问题，按时间和空间先后顺序划分为若干相互联系的决策阶段，以便按一定的次序求解每阶段的解。描述阶段的变量称阶段变量，常用k表示。 (2)状态（state）状态表示每个阶段开始时所处的自然状况或客观条件。描述状态的变量称为状态变量，第k阶段的状态变量常用sk 表示。sk的所有可能取值集合称为状态集合，用Sk 表示.状态既是前面阶段所作决策的结果，又是本阶段作出决策的出发点和依据。动态规划中要求状态必须具有无后效性，即如果某阶段状态给定后，这阶段以后过程的发展不受这阶段以前各阶段状态的影响。换句话说，过程的过去历史只能通过当前状态去影响它未来的发展。这一性质也称马尔科夫性 (3)决策（decision）决策指决策者根据当前的状态，在若干种方案中作出选择，达到下一阶段状态。表示决策的变量称决策变量，第k阶段的决策变量常用uk (sk )表示。决策变量的取值会受到状态变量的制约，被限制在某一范围之内,称此范围为允许决策集合，常用Dk (sk ) 表示，显然 uk (sk )∈Dk (sk ) §2 动态规划的基本概念 (4) 策略（policy）各阶段决策决定后，整个问题的决策序列就构成一个策略。设u1 (s1 ), u2 (s2 ) ,…, un (sn )分别为各阶段的决策，用决策排列序列 p1 n (s1)＝｛u1 (s1 ), u2 (s2 ) ,…, un (sn ) ｝表示，简记p1 n 。p1 n (s1) 允许取值的范围称为允许策略集合,用P1 n 表示, p1 n (s1) ∈ P1 n 。由过程的