期望平均准则的半马氏MDP.pdfVIP

  • 1
  • 0
  • 约1.21万字
  • 约 8页
  • 2017-10-07 发布于福建
  • 举报
维普资讯 1995丰 9月 长 沙 铁 道 学 院 学 报 № 3 第 l3卷第 3期 JOURNAlOFCHANGSHARAIIWAY UNIVERSrrY Sept. 1995 7/-- 期望平均准则的半马氏MDP。 郭先平 肖果能 科研所 I】 J7 【摘 要 】 本文讨论的 [h可数挑盎空问.任意行动空间及半马 氏挑罐矩阵所确 定的半马 氏豳雉过 程的崩苴平均准 则 ·在半马氏决策矩阵和报喇 甬敌埔足一定的条件下 ,用概率论 中的偬定性定理 ,证 明丁 I(≥ O)m 强雁健 平 怠带略 的存在性 . 【*钝词 】 n邑童塑壹 !塑 ”‘”’兰兰垦兰!丝苎+呈!望堡型 分 妻 号 , , 1 v 、 l 引言及模型 平均准则的半马 氏MDP是 MDP领域 中一个重要的研究方 向.存在不少文献 。等 进行了有益的探讨.他们的平均准则均局限在先取期望运算再取上 (下)极限 ,丽对于先取上 (下)极限再取期望运算(即所谓的期望平均准则)的讨论,对于马氏情形的MDP已有…等进 行了探讨,丽对于半马氏的情形 ,迄今为止.似乎尚无文献论及 .可能是因为极限的是否存在性 而给 问题的研究带来了田难,本文的 目的是在此方面作点探索性工作.我们以最优方程出发, 用概率中的稳定性定理.证明了£(≥O)一 最 尤『平稳策略的存在性,且证明了方法带有一般性. 本文讨论的填型是具有如下意义的五重级 {S。A.(Q ).,, ∈S .口∈A(f). ∈R) , ”).其中: () 状态空rr,Is是非空的可数 . () 行动空 H]『A(3 A().i∈S)为非空的标准 Broel空问. (iii) (0 ()为半马 氏决策矩 阵.即满足 ;(1)Q )盅0. O.. ∈S.d∈^(){(2) 对固定的 .J∈s.n∈^(), )关于 于实数集R上为非减右连续函数l(3)。∑0 (一)= j—es l, ∈ S。d ∈ A () (z,) r(i·d.)(∈ .d∈A(i).,≥ 0)为报酬 函数 . () t为期望平均准则 .或平均期望准刚. 收稿 日期 :j99S—O3一Ol · 湖南省 自然弭学基盘课题 维普资讯 72 长 沙 铁 道 学 院 学 报 1995芷 由半马 氏过程 的理论… 知 ;(口)若系统于初始时刻处于状态 i,采取行动 口∈A(),经一段 随机时间 后 ,系统瞬时地转移到状态J的概率为 Q (o。)}(6)系统进入状态 之前 ,于状态 i 采取行动n∈(,),所逗留的时间7’是具有分布函数 )=罢誉 的非负随机变量.若 日 (o。)= 0,可取 Gb(x)为任一确定的分布 函数 }(f)在时间 [O,£)0≤?’)内系统获得 的报酬 为r(i,口,£),当转移出现后 。我ff]再采取行动,如此继续下去 …… 为了选取行动而采取的策略 是一个序列{ , ,……, ,……}其中 是从H 一S× (A ×R × )到A上的转移概率.R.= [0,co),且何任何h ∈Ⅳ。,玎(A l^.)= l,其中h.= (。,ao*g。 ·,… ,4… ,f一 ,.),全体这样的策略 所成立集用 表示,策略 称为平稳的,若 有决策函数,:—A,,()∈A(),i∈S,使得 兰 (,,,,…,,。…)对任给的初始状态i∈S. 策略 ∈ ,由 及半马氏决策矩阵 (Q ( )所唯一确定的概率测

文档评论(0)

1亿VIP精品文档

相关文档