优控制第七章动态规划法.pptVIP

下载本文档

0
0
约4.47千字
约 10页
2025-01-10 发布于四川
举报
版权申诉

优控制第七章动态规划法.ppt

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

根据最优性原理，如果x*(t)是以x(t0)为初始状态的最优轨线。如图6所示。图6连续系统最优轨线设t=t′(t0t′tf)时，状态为x(t′)，它将轨线分成前后两半断。那么以x(t′)为初始状态的后半段也必是最优轨线。而与系统先前如何到达x(t′)无关。若取t0=t,t′=t+?t，式(4)可写成根据最优性原理，如果t到tf的过程是最优的，则从t+?t到tf的后部子过程也是最优的，其中tt+?ttf。因此可写成123当?t很小时，有4AB式(5)可近似表示为1将x(t+?t)进行泰勒展开，取一次近似，有324将上式在[x,t]领域展成泰勒级数，考虑到J*[x+?x,t+?t]既是x的函数，也与t有关，所以123代入式(8)，得1243考察上式因为J*[x,t]与u无关，故J*[x,t]与可提到min号外面。经整理可得式(14)称为连续系统动态规划基本方程或贝尔曼方程。1234贝尔曼方程。它是一个关于J*[x,t]的偏微分方程。解此方程可求得最优控制使J为极小。它的边界条件为如果令哈密尔顿函数为式中则式(14)可写成当控制矢量u(t)不受限制时，则有01上两式称为哈密尔顿－雅可比方程。上式说明，在最优轨线上，最优控制必须使H达全局最小。实际上这就是极小值原理的另一种形式。0203由贝尔曼方程可推导出协态方程和横截条件。式(14)可写成对x求偏导数，得(20)(19)(14)01由于对t的全导数，为03050204代入式(20)可写成令，则上式可写成0102这就是所求的协态方程，与以前结果完全一致。0304式中μ——与N同维的乘子矢量。贰在t=tf时，在终端处性能泛函为壹叁DCBA对x(tf)求偏导数，得即E将式(24)对tf求偏导数，得010203040506考虑式(17)、式(20)得上述结果与极小值原理中推导的完全一致。上述推导过程实际上等于用动态规划方法间接证明了极小值原理。STEP03STEP04STEP01STEP02应当指出，与极小值原理相比，动态规划法需要解偏微分方程式(14)，它要求J[x,t]具有连续的偏导数，但在实际工程中，这一点常常不能满足，因而限制了动态规划法的使用范围。例1：设，求最优控制u*(t)使解：构造哈密尔顿函数根据哈密尔顿－雅可比方程，有考虑控制u不受限制，得第七章动态规划法动态规划是贝尔曼在50年代作为多段决策过程研究出来的，现已在许多技术领域中获得广泛应用。动态规划是一种分段最优化方法，它既可用来求解约束条件下的函数极值问题，也可用于求解约束条件下的泛函极值问题。它与极小值原理一样，是处理控制矢量被限制在一定闭集内，求解最优控制问题的有效数学方法之一。动态最优的核心是最优性原理，它首先将一个多段决策问题转化为一系列单段决策问题，然后从最后一段状态开始逆向递推到初始段状态为止的一套求解最优策略的完整方法。下面先介绍动态规划的基本概念，然后讨论连续型动态规划。动态规划是解决多段决策过程优化问题的一种强有力的工具。所谓多段决策过程，是指把一个过程按时间或空间顺序分为若干段，然后给每一、多段决策问题的效果。一步作出“决策”(或控制)，以使整个过程取得最优如图1所示，对于中间的任意一段，例如第k+101段作出相应的“决策”(或控制)uk后，才能确定该段输02入状态与输出状态间的关系，即从xk变化到xk+1的状03态转移规律。在选择好每一段的“决策”(或控制)uk04以后，那么整个过程的状态转移规律从x0经xk一直到05xN也就被完全确定。全部“决策”的总体，称为“策06略”。0701当然，如果对每一段的决策都是按照使某种性能指标为最优的原则作出的，那么这就是一个多段最优决策过程。02图1多段决策过程示意图容易理解，在多段决策过程中，每一段(如第01k+1段)的输出状态(xk+1)都仅仅与该段的决策(uk)及02该段的初始状态(xk)有关。而与其前面各段的决策03及状态的转移规律无关。这种性质称为无后效性。04下面以最优路线问题为例，来讨论动态规划求05解多段决策问题。0601.设汽车从A