- 1
- 0
- 约1.21万字
- 约 8页
- 2017-10-07 发布于福建
- 举报
维普资讯
1995丰 9月 长 沙 铁 道 学 院 学 报 № 3
第 l3卷第 3期 JOURNAlOFCHANGSHARAIIWAY UNIVERSrrY Sept. 1995
7/-- 期望平均准则的半马氏MDP。
郭先平 肖果能
科研所 I】 J7
【摘 要 】 本文讨论的 [h可数挑盎空问.任意行动空间及半马 氏挑罐矩阵所确 定的半马 氏豳雉过 程的崩苴平均准
则 ·在半马氏决策矩阵和报喇 甬敌埔足一定的条件下 ,用概率论 中的偬定性定理 ,证 明丁 I(≥ O)m 强雁健
平 怠带略 的存在性 .
【*钝词 】 n邑童塑壹 !塑 ”‘”’兰兰垦兰!丝苎+呈!望堡型
分 妻 号 , , 1 v 、
l 引言及模型
平均准则的半马 氏MDP是 MDP领域 中一个重要的研究方 向.存在不少文献 。等
进行了有益的探讨.他们的平均准则均局限在先取期望运算再取上 (下)极限 ,丽对于先取上
(下)极限再取期望运算(即所谓的期望平均准则)的讨论,对于马氏情形的MDP已有…等进
行了探讨,丽对于半马氏的情形 ,迄今为止.似乎尚无文献论及 .可能是因为极限的是否存在性
而给 问题的研究带来了田难,本文的 目的是在此方面作点探索性工作.我们以最优方程出发,
用概率中的稳定性定理.证明了£(≥O)一 最 尤『平稳策略的存在性,且证明了方法带有一般性.
本文讨论的填型是具有如下意义的五重级 {S。A.(Q ).,, ∈S .口∈A(f). ∈R) ,
”).其中:
() 状态空rr,Is是非空的可数 .
() 行动空 H]『A(3 A().i∈S)为非空的标准 Broel空问.
(iii) (0 ()为半马 氏决策矩 阵.即满足 ;(1)Q )盅0. O.. ∈S.d∈^(){(2)
对固定的 .J∈s.n∈^(), )关于 于实数集R上为非减右连续函数l(3)。∑0 (一)=
j—es
l, ∈ S。d ∈ A ()
(z,) r(i·d.)(∈ .d∈A(i).,≥ 0)为报酬 函数 .
() t为期望平均准则 .或平均期望准刚.
收稿 日期 :j99S—O3一Ol
· 湖南省 自然弭学基盘课题
维普资讯
72 长 沙 铁 道 学 院 学 报 1995芷
由半马 氏过程 的理论… 知 ;(口)若系统于初始时刻处于状态 i,采取行动 口∈A(),经一段
随机时间 后 ,系统瞬时地转移到状态J的概率为 Q (o。)}(6)系统进入状态 之前 ,于状态 i
采取行动n∈(,),所逗留的时间7’是具有分布函数 )=罢誉 的非负随机变量.若
日 (o。)= 0,可取 Gb(x)为任一确定的分布 函数 }(f)在时间 [O,£)0≤?’)内系统获得 的报酬
为r(i,口,£),当转移出现后 。我ff]再采取行动,如此继续下去 ……
为了选取行动而采取的策略 是一个序列{ , ,……, ,……}其中 是从H 一S×
(A ×R × )到A上的转移概率.R.= [0,co),且何任何h ∈Ⅳ。,玎(A l^.)= l,其中h.=
(。,ao*g。 ·,… ,4… ,f一 ,.),全体这样的策略 所成立集用 表示,策略 称为平稳的,若
有决策函数,:—A,,()∈A(),i∈S,使得 兰 (,,,,…,,。…)对任给的初始状态i∈S.
策略 ∈ ,由 及半马氏决策矩阵 (Q ( )所唯一确定的概率测
原创力文档

文档评论(0)