动态规划类算法.pptVIP

  • 9
  • 0
  • 约1.11千字
  • 约 14页
  • 2016-11-22 发布于湖北
  • 举报
动态规划类算法 DDDP 离散微分动态规划法(Discrete differential dynamic programming – DDDP) 选定初始可行的决策序列和相应的状态序列; 选增量形成廊道:取定增量Δ,在初始状态序列的上下各变动Δ,形成一个带状的“廊道”,每个阶段一个状态变量只可能取三个值, ; 3. 在廊道内用动态规划法选优得到较好的新的状态序列; 4. 反复迭代:以新的状态序列代替初始状态序列,重复1.2.3.,直到收敛为止,得最优状态序列和最优决策序列。 例. 设 用动态规划法求最优解。 DDDP法的特点 能有效减轻动态规划的“维数灾”: 与动态规划发比较,大大减少存储量;计算量一般也会减少较多,但与初始状态序列的选取有关。 不能保证得到全局最优解,可能收敛到局部最优解; DDP 微分动态规划法Differential Dynamic Programming (DDP) 对DP的递推方程 设初始状态为 ,相应的决策为 ,记 将f,r在 , 处展开成二次Taylor多项式, T线性展开: 则 令其对 的梯度为0,得: 代入目标函数得 其中,矩阵Ak,bk可由上述系数矩阵表示。 顺推根据状态的增量求决策增量,在由状态转移方程的下一阶段的状态增量,从而得新的状态序列和决策序列。 特点:

文档评论(0)

1亿VIP精品文档

相关文档