1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
9.动态规

动态规划 基本概念 多阶段决策问题: 此问题系统的动态过程可以按照时间的进程分为若干个相互联系的阶段,而在每一个阶段中,具有一个或多个状态,在每一个阶段中都要针对每一个状态作出决策。这样,在各阶段的决策确定以后,就顺序构成一个决策序列,称为一个策略。 阶段和阶段变量:阶段是按照总决策进行的时间或空间的先后顺序来划分,用K表示,K为阶段变量。 状态和状态变量:状态描述系统所处的状态或位置。阶段状态应具有“无后效性”,即过程的历史只能通过当前的状态去影响它的未来,每一阶段(k )状态分为初始状态(sk)和终止状态(sk+1),前一阶段的终止状态是后一阶段的初始状态。 状态可能集 Sk, sk?Sk 决策变量和策略:xk表示第k阶段的决策。 决策变量序列称为策略 全过程策略 (x1,...,xn) 子策略 (xm,xm+1,...,xn) 状态转移方程:把过程由一个状态变到另一个状态的变化叫做状态转移。 sk,选择决策xk(sk)的产生的结果,便转移到sk+1,记为sk+1=Tk(sk,xk) 若Tk(sk,xk)=0,则称sk为终止状态。 阶段效益函数:sk,执行决策xk时,不仅带来系统状态的转移,也必然要影响决策目标,对应这个决策的效果值,叫做效益函数,记为 rk( sk,xk ) 效益函数:多阶段决策过程关于目标的总效益,在“无后效性”的条件下,由各阶段效益累计而成。 Rk= rk( sk,xk )⊙ rk+1( sk+1,xk+1 ) ⊙… ⊙ rn( sn,xn ) k=1,…,n 即k子系统的效益。 ⊙表示某种运算(+,-,*等) 当k=1时,R*表示总目标效益函数的最优值。 R*=r1(s1,x1*) ⊙ r2(s2,x2*) ⊙ … ⊙ rn(sn,xn*) ( x1*, x2*,…, xn*)称为最优策略 fk(sk)=opt{rk(sk,xk*) ⊙ rk+1(sk+1,xk+1*) ⊙ …⊙ rn(sn,xn*)} fk(sk):由第k阶段的状态sk到终点的最优效益值。 当k=1,且s1唯一时,R*=f1(s1) 当⊙为“+”时, fk(sk)=opt{rk(sk,xk*) + rk+1(sk+1,xk+1*) + …+ rn(sn,xn*)} -----贝尔曼函数 最优化原理:若( x1*, …, xn*)是初始状态s1 ? S1的最优策略,则其一部分 (xk*,xk+1*,…,xn*)1≤k≤n对于它的初始状态sk ? Sk而言也构成一个最优策略,或称:最优策略的任何一部分子策略也是相应初始状态的最优策略。 证明(反证法) 最短路线问题 EX: K—阶段变量 sk—状态变量 S2={②,③,④} xk—决策变量,即当状态为sk时,可选择的下一状态,xk=sk+1 rk(sk,xk)—从sk到sk+1的距离 fk(sk)—由sk到终点的最短距离 采用逆推的方法求解 解 k=4 f4(8)=r4(8,10)=3 f4(9)=r4(9,10)=4 k=3 f3(s3)=min{r3(s3,x3)+f4(s4)} f3(5)=min r3(5,8)+f4(8) r3(5,9)+f4(9) f3(6)=7 f3(7)=6 k=2 f2(s2)=min{r2(s2,x2)+f3(s3)} f2(2)=min{r2(2,5)+f3(5), r2(2,6)+f3(6), r2(2,7)+f3(7)} =min{7+4,4+7,6+6}=11 f2(3)=7 f2(4)=8 k=1 f1(s1)=min{r1(s1,x1)+f2(s2)} f1(1)=min{r1(1,2)+f2(2), r1(1,3)+f2(3), r1(1,4)+f2(4)} =min{2+11,4+7,3+8}=11 f1

文档评论(0)

803322fw + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档