- 14
- 0
- 约3.11千字
- 约 25页
- 2018-06-27 发布于福建
- 举报
10-1动态规划基本概念与基本原理1
动态规划(Dynamic Programming) 多阶段决策过程的最优化(简介) 动态规划的基本概念和基本原理 动态规划模型的解题步骤 动态规划简介 动态规划——解决多阶段决策过程最优化的一种数学方法。 “动态”——随着“时间”过程的发展而决定各时段的决策,产生一个决策序列。 1951年,R.Bellman《动态规划》提出:“最优化原理”------ 把多阶段过程转化为一系列相互联系的单阶段问题,逐个求解。 动态规划模型分类 1、离散确定型; 2、离散随机型; 3、连续确定型; 4、离散随机型; 多阶段决策过程最优化 多阶段决策过程是指这样一类特殊的活动过程,他们可以按时间顺序分解成若干相互联系的阶段,在每个阶段都要做出决策,全部过程的决策是一个决策序列,所以多阶段决策问题也称为序贯决策问题。 多阶段决策过程最优化问题举例 2、生产与存储问题 某厂每月供应市场一定数量的产品,如何安排每月的产量? 动态规划的基本概念和基本原理 动态规划的基本概念 阶段 状态、状态变量 、状态空间 决策 、允许决策集合 策略 状态转移(方程) 指标函数 动态规划的基本概念和基本原理 阶段(Stage) 将所给问题的过程,按时间或空间特征分解成若干个相互联系的阶段,以便按次序去求每阶段的解,常用k表示阶段变量。 动态规划的基本概念和基本原理 状态(State) 各阶段开始时的客观条件叫做状态。描述各阶段状态的变量称为状态变量,常用sk表示第k阶段的状态变量,状态变量的取值集合称为状态集合,用Sk表示。 动态规划的基本概念和基本原理 动态规划中的状态具有如下性质: 某阶段的状态,只对该阶段该状态以后过程的演变起作用,而不受以前各阶段状态的影响。即:过程的过去历史只能通过当前状态去影响它未来的发展,这称为无后效性。如果所选定的变量不具备无后效性,就不能作为状态变量来构造动态规划模型。 动态规划的基本概念和基本原理 决策和策略 (Decision and Policy) 当各段的状态确定以后,就可以做出不同的决定(或选择),从而确定下一阶段的状态,这种决定称为决策。决策变量用uk(sk)表示,允许决策集合用Dk(Sk)表示。 动态规划的基本概念和基本原理 各个阶段决策确定后,整个问题的决策序列就构成一个策略,用p1,n(u1,u2,…un)表示。对每个实际问题,可供选择的策略有一定的范围,称为允许策略集合,用P表示。使整个问题达到最优效果的策略就是最优策略。 动态规划的基本概念和基本原理 状态转移方程 动态规划中本阶段的状态往往是上一阶段的决策结果。如果给定了第k段的状态sk ,本阶段决策为uk(sk) ,则第k+1段的状态sk+1由公式: sk+1=Tk( sk, uk)确定,称为状态转移方程。 动态规划的基本概念和基本原理 指标函数 用于衡量所选定策略优劣的数量指标称为指标函数。最优指标函数记为fk(sk)。 动态规划的基本思想与基本原理 最短路的重要性质: 逆序递推法 用逆序递推法求 例1的最短路 用逆序递推方法求解,逐步求出各段各点到E的最短路线,最后求得A点到E点的最短路线。 当k=4时,f4(D1)表示在第4段由D1到E的最短距离,故有f4(D1)=4 。同理, f4(D2)=3。 当k=3时,若从C1出发,则有两个选择,一个是至D1一个是至D2,则: 依此类推,可得: k=2时,有 f2(B1)= 14 u2*(B1)= C2 (C3 ) f2 (B2)=11 u2*(B2)= C1 f2 (B3)=13 u2*(B3)= C3 k=1时,只有一种状态A,则 动态规划的函数基本方程 动态规划方法基本思想总结 将多阶段决策过程划分为阶段,恰当选取状态变量、决策变量及定义最优指标函数,从而把问题化为一族同类型的子问题,逐个求解。 从边界条件开始,按逆(或顺)过程行进方向,逐段递推寻优。 贝尔曼(Ballman)最优化原理 作为整个过程的最优策略具有这样的性质,即无论过去的状态和决策如何,对前面的决策所形成的状态而言,余下的诸决策必须构成最优策略。这就是说,不管引导到这个现时状态的头一个状态和决策是什么,所有的未来决策应是最优的。 动态规划的模型的建立 动态规划模型的构成 正确选择阶段变量 正确选择状态变量,状态变量需满足条
您可能关注的文档
- (细胞生物学研究的内容与现状.doc
- --公司检测与校准实验室质量手册.doc
- --市--河治理工程A标段土建及设备安装组织机构与职责.doc
- --河管理处安全生产事故报告与调查处理管理制度.doc
- --铁路第一项目部乌洛河工区施工期防洪渡汛与应急预案.doc
- -4.1 瞬态过程与换路定律.ppt
- -1章—低压电器的分类与用途9页.ppt
- -同济版大学物理上册3-2 狭义相对论产生的实验基础与历史条件.ppt
- -公众参与邻避行动的动机与策略研究.doc
- -基于Java的“网络版五子棋”游戏的设计与实现.doc
- ISO14001&45001环境与职业健康安全表单.xls
- “寻密山河,追忆红色故事”百色五日红色旅游线路设计 开题报告.docx
- “寻密山河,追忆红色故事”百色五日红色旅游线路设计 任务书.docx
- 2021风力发电机组风轮锁定销.docx
- 2019风力发电机组用锚杆组件.docx
- 2019风力发电机组测风传感器.docx
- 河南省许昌市鄢陵县彭店二中2025-2026学年七年级上册语文期末试卷(含答案 ).doc
- 统编版语文七年级上册第6课散步同步练习题(含答案).docx
- 四川省绵阳市平武县2025-2026学年八年级上学期1月期末考试语文试卷(含答案).docx
- 河北省唐山市2025-2026年八年级上期末语文试卷(含答案).docx
原创力文档

文档评论(0)