§2最优化原理与动态规划的数学模型方案.ppt

下载文档 降价啦

4
0
约4.15千字
约 20页
2016-12-23 发布于湖北
举报
版权申诉
保障服务

§2最优化原理与动态规划的数学模型方案.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

§2 最优化原理与动态规划的数学模型一、动态规划问题的解题思路动态规划方法的基本思路就是将一个n阶段的决策问题转化为依次求解n 个具有递推关系的单阶段决策问题，从而简化计算过程。在例8-1中，这种转化的实现是从终点E出发一步步反推，这种算法称为逆序算法。具体步骤如下：（1）考虑一个阶段的最优选择，旅行者到达E点前，上一站必然到达D1或D2，若上一站的起点为D1，则该阶段的最优决策必然是D1→E，距离d(D1,E)=3,记f((D1)=3,f((D1)表示从D1出发到终点的最短距离，若旅行者上一站的起点为D2，则该阶段最优选择为D2→E，f((D2)=4. （2）综合考虑两个阶段的最优选择，当旅行者离终点还有两站时，他必然位于C1,C2,C3中的某一点。若他位于C1，则他有两条路线可以选择：C1→D1→E或C1→D2→E，若将从C1到E的最短距离记为f(C1)，则 f(C1)=min{d(C1,D1)+f(D1) , d(C1,D2)+f(D2)} =min{1+3,4+4}=4;类似的： f(C2)=min{d(C2,D1)+f(D1) , d(C2,D2)+f(D2)} =min{6+3,3+4}=7; f(C3)=min{d(C3,D1)+f(D1) , d(C3,D2)+f(D2)} =min{3+3,3+4}=6; （3）综合考虑三个阶段的最优选择，当旅行者离终点还有三站时，他必然位于B1,B2,B3中的某一点。若他位于B1，则他有三条路线可以选择：B1→C1→E或B1→C2→E，或B1→C3→E，若将从B1到E的最短距离记为f(B1)，则 f(B1)=min{d(B1,C1)+f(C1) , d(B1,C2)+f(C2) , d(B1,C3)+f(C3)}=min{7+4,5+7,6+6}=11;类似的： f(B2)=min{d(B2,C1)+f(C1) , d(B2,C2)+f(C2) , d(B2,C3)+f(C3)}=min{3+4,2+7,4+6}=7; f(B3)=min{d(B3,C1)+f(C1) , d(B3,C2)+f(C2) , d(B3,C3)+f(C3)}=min{5+4,1+7,5+6}=8; (4)四个阶段综合考察，设旅行者从A到E的最短距离为f(A)，则 f(A)=min{d(A,B1)+f(B1) , d(A,B2)+f(B2) , d(A,B3)+f(B3)}=min{2+11,5+7,3+8}=11. 因此，从到的最短路线为： A→B3→C2→D2→E ，最短路线长为：11 。所谓无后效性是指：一旦到达某一状态，那么今后的选择只与这一状态有关，而与先前是如何到达这一状态是无关的。 3. 决策(decision) 某阶段状态取定，可以作出不同的决定，从而决定这一阶段所收到的效果以及下一阶段的状态，这种决定称为“决策”。表示决策的变量称决策变量。决策变量取值范围构成允许决策集合：。 5. 状态转移律从sk的某一状态值出发，当决策变量的取值决定后，下一阶段的状态变量的取值也就随之确定，这种从上一阶段的某一状态值到下一阶段某一状态值的转移的规律称为状态转移律。显然下一阶段状态变量的取值是上一阶段状态变量sk以及上一阶段决策变量的函数记为：或简记为：状态转移律有时也称为状态转移方程。 6. 指标函数有阶段指标函数和过程指标函数之分，阶段的指标函数是对应某一阶段状态和从该状态出发的一个阶段的决策的某种效益度量用表示。过程的指标函数是指从状态sk(k=1,…,n)出发至过程最终，当采取某种子策略时，按预定标准得到的效益值，记为：过程指标函数又是它所包含的各阶段指标函数的函数，按问题的性质不同，可以是各阶段指标函数之和、积或其它函数形式。当sk的值确定后，指标函数值就只与k阶段起的子策略有关。 7.最优指标函数是指对某一确定的状态选取最优子策略后得到的指标函数值。实际上也就是对应某一最优子策略的某种效益度量（可以是产量、成本、收益、距离等）。对应于从状态sk出发的最优子策略的效益值记为，则。其中opt代表最优化，根据效益值的具体含义可以是求最大(max)或求(min)最小。（2）决策变量是对过程进行控制的手段，复杂问题中的决策变量可以是多维变量，它的取值可以是离散的也可以是连续的。允许决策集合相当于线性规划问题中的约束条件。（3）状态转移律sk+1=T(sk ,uk),当给定sk,uk的取值后，如果