动态规划讲座.pdfVIP

下载本文档

5
0
约3.09千字
约 9页
2017-09-25 发布于江西
举报
版权申诉

动态规划讲座.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

6.231动态规划讲座16 概要 • 更多的滚动算法 • 基于仿真的方法 • 滚动算法的逼近 • 区间滚动逼近 • 离散化问题 • 其它的次最优化方法滚动算法 • 滚动策略：在每个时刻k和状态，利用控制量有其中以及为启发式余留代价。 • 称为的Q-因子，对于随机问题，其计算可以用Monte Carlo来仿真。 • 潜在的难题：为了使Q-因子对达到最小，我们必须构造Q-因子的偏差。在Q-因子计算中，这种偏差常常导致仿真误差变大。 • 潜在的补偿：通过直接仿真，比较任意两个控制量u和。 Q- 因子逼近 • 这里，不是仿真Q-因子，而是逼近余留代价。 • 确定性等价方法：给定，将今后的干扰固定在典型值上，用下式逼近Q-因子：式中是启发式算法的代价在干扰为典型情况下的取值。 • 这是用“单一样本仿真”来逼近。 • 确定性等价方法中的变形：可以通过对少量“典型样本” 的仿真来逼近。 • 替代方法：在有限的时间和状态对上，计算（精确或近似的）基本策略余留代价的值，然后用近似结构和“最小平方” 来逼近。区间滚动方法 • 这是一个l步前瞻策略，它的近似余留代价刚好为0 。 • 等价地，近似余留代价是终端代价泛函。 • 短的区间滚动节省计算量。 • “反论” ：通过更长的区间滚动计算来改善性能并不总是正确的。 • 例：在起始状态，有两个控制起作用（1和2 ），在其它的状态仅仅有一个控制作用。滚动算法与区间滚动算法的组合 • 在计算基本启发式余留代价时，我们可以用区间滚动逼近的方法。 • 由于启发式算法是次最优的，区间滚动算法运行越长其作用就变得越不可靠。 • 例：N-步停止问题：停止代价为0，继续代价为－ε或1，0 ε1/N ，将继续代价为1时的第一个状态定义为状态m ，最优策略是停在状态 m ，并且最优代价是－mε。 • 考虑启发式算法在每个状态的连续性，以及基于该启发式算法的滚动策略，该策略具有l≤m 的区间滚动步数。 • 系统将延续最初m －l ＋1步，从而构成了一个为－(m －l ＋1)ε 的代价。当l 变短的时候，滚动算法运行便得到了改善。离散化 • 若状态空间或/和控制空间是连续/无限的，必须用一个有限的离散空间来替代。 • 从连续性的要求上讲，随着离散化做得越来越好，离散问题的余留代价泛函便收敛到连续性问题的泛函上。 • 连续时间离散化后的缺陷。 • 当涉及离散时间逼近时，控制器的约束集发生很大变化。 • 例：控制约束为，i ＝1，2 。与离散化系统相比较有这里。 • 连续时间的“ 凸化效果” 。常用离散化方法I • 给定一个状态空间为S 的离散时间系统，考虑其一个有限子集。例