参数Markov决策过程的随机逼近算法-云南大学.PDFVIP

  • 2
  • 0
  • 约2.34万字
  • 约 4页
  • 2019-04-06 发布于天津
  • 举报

参数Markov决策过程的随机逼近算法-云南大学.PDF

( ) , 2003, 25 (5) : 377~ 380 CN 53- 1045/ N ISSN 0258- 7971 Journal of Yunnan Uni ersity Marko 胡光华 ( , 65009 1) : , , . , 1 . : M arkov ; ; : O 211. 5 : A : 0258- 7971( 2003) 05- 0377- 04 ( MDP) i ∀ S, ( i) = 1 S [ 0, 1] M a . 3 a∀ A K , ∀ R , , , {f ( i, ) : a ∀ A , i ∀ S} , i Watkin [ 1] Q- William [ 2] a a ; f ( i, ) [ 3] a , ( i, ) = , a [ 4] f a∋( i, ) - . a∋∀ A 2 . MDP , MDP ; p ( ) = * i, )p ( a), ji a ij a∀ A [ 3] . r( i, ) = ( i, ) r( i, a). a 1 . a∀ A K Q = {P ( ): ∀ R }, Q Q , 1 . : S = { 1, 2, !, N } 1 P ∀ Q {X , t = 0, 1, 2, !} . t . K K

文档评论(0)

1亿VIP精品文档

相关文档