- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
6.231动态规划
讲座16
概要
• 更多的滚动算法
• 基于仿真的方法
• 滚动算法的逼近
• 区间滚动逼近
• 离散化问题
• 其它的次最优化方法
滚动算法
• 滚动策略:在每个时刻k和状态 ,利用控制量
有
其中
以及 为启发式余留代价。
• 称为 的Q-因子,对于随机问题,其计算
可以用Monte Carlo来仿真。
• 潜在的难题:为了使Q-因子对 达到最小,我们必须构
造Q-因子的偏差 。在Q-因子计算中,这
种偏差常常导致仿真误差变大。
• 潜在的补偿:通过直接仿真 ,比较任
意两个控制量u和 。
Q- 因子逼近
• 这里,不是仿真Q-因子,而是逼近余留代价 。
• 确定性等价方法:给定 ,将今后的干扰固定在典型值
上,用下式逼近Q-因子:
式中 是启发式算法的代价在干扰为典型情
况下的取值。
• 这是用“单一样本仿真”来逼近 。
• 确定性等价方法中的变形:可以通过对少量“典型样本” 的仿
真来逼近 。
• 替代方法:在有限的时间和状态对上,计算(精确或近似
的)基本策略余留代价的值,然后用近似结构和“最小平方”
来逼近 。
区间滚动方法
• 这是一个l步前瞻策略,它的近似余留代价刚好为0 。
• 等价地,近似余留代价是终端代价泛函 。
• 短的区间滚动节省计算量。
• “反论” :通过更长的区间滚动计算来改善性能并不总
是正确的。
• 例:在起始状态,有两个控制起作用(1和2 ),在其
它的状态仅仅有一个控制作用。
滚动算法与区间滚动算法的组合
• 在计算基本启发式余留代价时,我们可以用区间滚动逼近的方法。
• 由于启发式算法是次最优的,区间滚动算法运行越长其作用就变得越
不可靠。
• 例:N-步停止问题:停止代价为0,继续代价为-ε或1,0 ε1/N ,
将继续代价为1时的第一个状态定义为状态m ,最优策略是停在状态
m ,并且最优代价是-mε。
• 考虑启发式算法在每个状态的连续性,以及基于该启发式算法的滚动
策略,该策略具有l≤m 的区间滚动步数。
• 系统将延续最初m -l +1步,从而构成了一个为-(m -l +1)ε 的代价。
当l 变短的时候,滚动算法运行便得到了改善。
离散化
• 若状态空间或/和控制空间是连续/无限的,必须用一个有限
的离散空间来替代。
• 从连续性的要求上讲,随着离散化做得越来越好,离散问
题的余留代价泛函便收敛到连续性问题的泛函上。
• 连续时间离散化后的缺陷。
• 当涉及离散时间逼近时,控制器的约束集发生很大变化。
• 例:
控制约束为 ,i =1,2 。与离散化系统相比
较有
这里 。
• 连续时间的“ 凸化效果” 。
常用离散化方法I
• 给定一个状态空间为S 的离散时间系统,考虑其一个有限子
集 。例
初级会计持证人
专注于经营管理类文案的拟写、润色等,本人已有10余年相关工作经验,具有扎实的文案功底,尤善于各种框架类PPT文案,并收集有数百万份各层级、各领域规范类文件。欢迎大家咨询!
文档评论(0)