清华大学网络优化-第4章_动态规划.ppt

下载文档 降价啦

2
0
约3.42千字
约 23页
2016-12-20 发布于重庆
举报
版权申诉
保障服务

清华大学网络优化-第4章_动态规划.ppt

1、本文档共23页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

* 网络优化 Network Optimization /netopt 清华大学数学科学系谢金星办公室：理科楼2266# （电话 Email:jxie@ /~jxie/courses/netopt 清华大学课号第4章动态规划 (Dynamic Programming) 动态规划问题的例子例（续例1.2）最短路问题 (Shortest Path Problem) 许多网络优化问题要用到动态规划技术 S T 特点：多阶段决策 - 子决策仍然最优 - 动态规划(DP)技术动态规划 – R.E. Bellman (1950’s) 所谓决策(Decision Making)，就是人们为了达到一定的目的，从若干个可能的策略(Policy)（如行动、方案）中选取最好的策略的过程. 一般来说，一个决策模型包含三个最基本的因素：（1）自然状态（或简称状态, State）：这是指决策活动中决策者无法控制的一些因素，即决策时客观对象所具备的基本条件. 状态的集合称为状态集合或状态空间. （2）策略：这是指决策活动中决策者可以采取的行动方案. 策略的集合称为策略集合或策略空间. （3）益损值：这是指决策活动中决策者可以采取不同的策略，在不同的自然状态下所获得的收益或损失值. 它是策略和状态的函数，也是决策活动的目标和基础. 4.1.1 多阶段决策模型战略决策(高层决策)、战术决策(中层决策)、操作决策(基本决策) 单目标决策、多目标决策单阶段决策（一次决策）、多阶段决策确定型决策、非确定型决策或风险型决策（随机决策、模糊决策）多阶段决策过程多阶段决策（Multi-Stage Decision Making），是将决策问题的全过程恰当地划分为若干个相互联系的子过程（每个子过程为一个阶段），以便按照一定的次序去求解. 阶段一般是根据时间和空间的自然特征来划分，以便于问题的求解为目的. 描述阶段的变量称为阶段变量，一般用k表示. 从第k个阶段开始点到全过程终点的过程称为后部子过程，或k子过程. 在多阶段决策问题中，状态表示每个阶段开始时所处的自然状况或客观条件. 描述过程状态的变量称为状态变量，一般用xk表示第k个阶段的状态变量. 当过程处于某个阶段的某个状态时，从该状态演变为下一个阶段某状态的选择，称为决策（抉择，Decision）. 描述决策的变量称为决策变量，一般用uk表示第k个阶段的决策变量，而用Uk(xk)表示第k个阶段xk状态下的所有允许决策的集合. 状态转移方程无后效性的多阶段决策过程动态规划中，多阶段决策问题具有无后效性（马尔科夫性质），即当某阶段的状态一旦确定,则此后过程的演变不再受此前各状态和决策的影响, 或者说“未来与过去无关”. 即由状态xk出发的后部子过程可以看成一个以xk为初始状态的独立过程. 相应于后部子过程（k子过程）的决策序列称为子策略，记为pk,n(xk) ，所有允许子策略的集合记为Pk,n(xk). 由所有各阶段的决策组成的决策序列称为全过程策略，或简称策略，记为p1,n(x1). 可供选择的所有全过程策略的集合构成允许策略集合，记为P1,n(x1) .其中能使总体性能达到最优的策略称为最优策略，一般记为一般记为无后效性的多阶段决策过程 - 准则函数及可分性准则函数/指标函数（Criterion Function）是衡量策略好坏的尺度(益损值). 定义在全过程上的准则函数相当于目标函数，一般记为 V1,n(x1; p1,n ) ，或简记为V1,n 定义在k子过程上的准则函数，记为Vk,n(xk; pk,n ) ,简记为Vk,n 准则函数在第k阶段一个阶段内的取值称为第k阶段的准则函数，记为vk(xk; uk) 最优性原理中，准则函数具有（阶段）可分性，即 4.1.2 最优性定理定理4.1 设有一个准则函数可分的无后效性的多阶段决策过程,阶段变量k=1,2,…,n,允许策略是最优策略的充要条件是: 对任意1kn, 当初始状态为x1时, 有 (4.3) 式中 , ,即是由给定的初始状态x1和子策略p1，k-1所确定的第k阶段的状态. 证明: 必要性. 设允许策略是最优策略，则最优性定理充分性. 设允许策略满足定理的条件（4.3）, 为任一允许策略，则因为所