最优控制第七章动态规划法.ppt

  1. 1、本文档共68页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
将x(t + ?t)进行泰勒展开,取一次近似,有 (9) (10) (11) 将上式在[x,t]领域展成泰勒级数,考虑到 J*[x+?x, t+?t]既是x的函数,也与t有关,所以 (12) (8) 代入式(8),得 (13) (12) (8) 考察上式因为J*[x, t]与u无关,故J*[x, t]与 可提到min号外面。经整理可得 式(14)称为连续系统动态规划基本方程或贝尔曼方程。 (14) 贝尔曼方程。它是一个关于J*[x, t]的偏微分 方程。解此方程可求得最优控制使J为极小。它 的边界条件为 (15) (14) 如果令哈密尔顿函数为 式中 则式(14)可写成 (17) (16) 当控制矢量u(t)不受限制时,则有 上两式称为哈密尔顿-雅可比方程。上式说明, 在最优轨线上,最优控制必须使H达全局最小。 实际上这就是极小值原理的另一种形式。 (18) 由贝尔曼方程可推导出协态方程和横截条件。 式(14)可写成 对x求偏导数,得 (20) (19) (14) 由于对t的 全导数,为 (22) (21) 代入式(20)可写成 (20) 令 ,则上式可写成 (23) 这就是所求的协态方程 ,与以前结果 完全一致。 (22) 在t= tf时,在终端处性能泛函为 式中μ——与N同维的乘子矢量。 (24) 对x(tf)求偏导数,得 (25) (26) 即 (24) 将式(24)对tf求偏导数,得 (27) (24) 考虑式(17)、式(20)得 上述结果与极小值原理中推导的完全一致。 上述推导过程实际上等于用动态规划方法间接证 明了极小值原理。 (28) (17) (20) (27) 应当指出,与极小值原理相比,动态规划法需 要解偏微分方程式(14),它要求J [x, t]具有连续的 偏导数,但在实际工程中,这一点常常不能满足, 因而限制了动态规划法的使用范围。 例1:设 ,求最优控制u*(t)使 解:构造哈密尔顿函数 根据哈密尔顿-雅可比方程,有 考虑控制u不受限制,得 故 边界条件,因Φ[x(tf), tf]=0,故J[x(tf)]=0 如果令 ,则得 这正是应用极小值原理所得的结果,二者 完全一致。 例2:设受控系统状态方程为 初始状态为 性能泛函为 试求在u无限制情况下,使J取极小时的最优控制。 解:构造哈密尔顿函数 由哈密尔顿-雅可比方程 因u无限制,可从 求得 代入上式,并注意到J*与t无关,因而 , 有 为求解此偏微分方程,设其解为 满足方程,得 各项系数为 可得 解为 最优控制 最优控制可由状态反馈实现,如图7所示。 进一步考察系统的状态轨线。系统的状态方程 为齐次方程。 它的解为 * 第七章 动态规划法 动态规划是贝尔曼在50年代作为多段决策过程 研究出来的,现已在许多技术领域中获得广泛应 用。动态规划是一种分段最优化方法,它既可用来 求解约束条件下的函数极值问题,也可用于求解约 束条件下的泛函极值问题。它与极小值原理一样, 是处理控制矢量被限制在一定闭集内,求解最优控 制问题的有效数学方法之一。 动态最优的核心是最优性原理,它首先将一个 多段决策问题转化为一系列单段决策问题,然后从 最后一段状态开始逆向递推到初始段状态为止的一 套求解最优策略的完整方法。 下面先介绍动态规划的基本概念,然后讨论连 续型动态规划。 一、多段决策问题 动态规划是解决多段决策过程优化问题的一 种强有力的工具。所谓多段决策过程,是指把一 个过程按时间或空间顺序分为若干段,然后给每 一步作出“决策”(或控制),以使整个过程取得最优 的效果。 如图1所示,对于中间的任意一段,例如第k+1 段作出相应的“决策”(或控制)uk后,才能确定该段输 入状态与输出状态间的关系,即从xk变化到xk+1的状 态转移规律。在选择好每一段的“决策”(或控制) uk 以后,那么整个过程的状态转移规律从x0经xk一直到 xN也就被完全确定。全部“决策”的总体,称为“策 略”。 当然,如果对每一段的决策都是按照使某种性 能指标为最优的原则作出的,那么这就是一个多段

文档评论(0)

wyjy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档