动态规划讲座.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
6.231动态规划 讲座16 概要 • 更多的滚动算法 • 基于仿真的方法 • 滚动算法的逼近 • 区间滚动逼近 • 离散化问题 • 其它的次最优化方法 滚动算法 • 滚动策略:在每个时刻k和状态 ,利用控制量 有 其中 以及 为启发式余留代价。 • 称为 的Q-因子,对于随机问题,其计算 可以用Monte Carlo来仿真。 • 潜在的难题:为了使Q-因子对 达到最小,我们必须构 造Q-因子的偏差 。在Q-因子计算中,这 种偏差常常导致仿真误差变大。 • 潜在的补偿:通过直接仿真 ,比较任 意两个控制量u和 。 Q- 因子逼近 • 这里,不是仿真Q-因子,而是逼近余留代价 。 • 确定性等价方法:给定 ,将今后的干扰固定在典型值 上,用下式逼近Q-因子: 式中 是启发式算法的代价在干扰为典型情 况下的取值。 • 这是用“单一样本仿真”来逼近 。 • 确定性等价方法中的变形:可以通过对少量“典型样本” 的仿 真来逼近 。 • 替代方法:在有限的时间和状态对上,计算(精确或近似 的)基本策略余留代价的值,然后用近似结构和“最小平方” 来逼近 。 区间滚动方法 • 这是一个l步前瞻策略,它的近似余留代价刚好为0 。 • 等价地,近似余留代价是终端代价泛函 。 • 短的区间滚动节省计算量。 • “反论” :通过更长的区间滚动计算来改善性能并不总 是正确的。 • 例:在起始状态,有两个控制起作用(1和2 ),在其 它的状态仅仅有一个控制作用。 滚动算法与区间滚动算法的组合 • 在计算基本启发式余留代价时,我们可以用区间滚动逼近的方法。 • 由于启发式算法是次最优的,区间滚动算法运行越长其作用就变得越 不可靠。 • 例:N-步停止问题:停止代价为0,继续代价为-ε或1,0 ε1/N , 将继续代价为1时的第一个状态定义为状态m ,最优策略是停在状态 m ,并且最优代价是-mε。 • 考虑启发式算法在每个状态的连续性,以及基于该启发式算法的滚动 策略,该策略具有l≤m 的区间滚动步数。 • 系统将延续最初m -l +1步,从而构成了一个为-(m -l +1)ε 的代价。 当l 变短的时候,滚动算法运行便得到了改善。 离散化 • 若状态空间或/和控制空间是连续/无限的,必须用一个有限 的离散空间来替代。 • 从连续性的要求上讲,随着离散化做得越来越好,离散问 题的余留代价泛函便收敛到连续性问题的泛函上。 • 连续时间离散化后的缺陷。 • 当涉及离散时间逼近时,控制器的约束集发生很大变化。 • 例: 控制约束为 ,i =1,2 。与离散化系统相比 较有 这里 。 • 连续时间的“ 凸化效果” 。 常用离散化方法I • 给定一个状态空间为S 的离散时间系统,考虑其一个有限子 集 。例

文档评论(0)

经管专家 + 关注
实名认证
服务提供商

初级会计持证人

专注于经营管理类文案的拟写、润色等,本人已有10余年相关工作经验,具有扎实的文案功底,尤善于各种框架类PPT文案,并收集有数百万份各层级、各领域规范类文件。欢迎大家咨询!

版权声明书
用户编号:6055234005000000
领域认证该用户于2023年12月17日上传了初级会计

1亿VIP精品文档

相关文档