期望平均准则的半马氏MDP.pdfVIP

下载本文档

1
0
约1.21万字
约 8页
2017-10-07 发布于福建
举报

期望平均准则的半马氏MDP.pdf

维普资讯 1995丰 9月长沙铁道学院学报 № 3 第 l3卷第 3期 JOURNAlOFCHANGSHARAIIWAY UNIVERSrrY Sept． 1995 7／-- 期望平均准则的半马氏MDP。郭先平肖果能科研所 I】 J7 【摘要】本文讨论的 [h可数挑盎空问．任意行动空间及半马氏挑罐矩阵所确定的半马氏豳雉过程的崩苴平均准则 ·在半马氏决策矩阵和报喇甬敌埔足一定的条件下，用概率论中的偬定性定理，证明丁 I(≥ O)m 强雁健平怠带略的存在性．【*钝词】 n邑童塑壹 !塑 ”‘”’兰兰垦兰!丝苎+呈!望堡型分妻号，， 1 v 、 l 引言及模型平均准则的半马氏MDP是 MDP领域中一个重要的研究方向．存在不少文献。等进行了有益的探讨．他们的平均准则均局限在先取期望运算再取上 (下)极限，丽对于先取上 (下)极限再取期望运算(即所谓的期望平均准则)的讨论，对于马氏情形的MDP已有…等进行了探讨，丽对于半马氏的情形，迄今为止．似乎尚无文献论及．可能是因为极限的是否存在性而给问题的研究带来了田难，本文的目的是在此方面作点探索性工作．我们以最优方程出发，用概率中的稳定性定理．证明了￡(≥O)一最尤『平稳策略的存在性，且证明了方法带有一般性．本文讨论的填型是具有如下意义的五重级 {S。A．(Q )．，， ∈S ．口∈A(f)． ∈R) ， ”)．其中： () 状态空rr,Is是非空的可数． () 行动空 H]『A(3 A()．i∈S)为非空的标准 Broel空问． (iii) (0 ()为半马氏决策矩阵．即满足；(1)Q )盅0． O．． ∈S．d∈^(){(2) 对固定的．J∈s．n∈^()， )关于于实数集R上为非减右连续函数l(3)。∑0 (一)= j—es l， ∈ S。d ∈ A () (z，) r(i·d．)(∈ ．d∈A(i)．，≥ 0)为报酬函数． () t为期望平均准则．或平均期望准刚．收稿日期：j99S—O3一Ol · 湖南省自然弭学基盘课题维普资讯 72 长沙铁道学院学报 1995芷由半马氏过程的理论… 知；(口)若系统于初始时刻处于状态 i，采取行动口∈A()，经一段随机时间后，系统瞬时地转移到状态J的概率为 Q (o。)}(6)系统进入状态之前，于状态 i 采取行动n∈(，)，所逗留的时间7’是具有分布函数 )=罢誉的非负随机变量．若日 (o。)= 0，可取 Gb(x)为任一确定的分布函数 }(f)在时间 [O，￡)0≤?’)内系统获得的报酬为r(i，口，￡)，当转移出现后。我ff]再采取行动，如此继续下去 …… 为了选取行动而采取的策略是一个序列{ ，，……，，……}其中是从H 一S× (A ×R × )到A上的转移概率．R．= [0，co)，且何任何h ∈Ⅳ。，玎(A l^．)= l，其中h．= (。，ao*g。 ·，… ，4… ，f一，．)，全体这样的策略所成立集用表示，策略称为平稳的，若有决策函数，：—A，，()∈A()，i∈S，使得兰 (，，，，…，，。…)对任给的初始状态i∈S．策略 ∈ ，由及半马氏决策矩阵 (Q ( )所唯一确定的概率测

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

期望平均准则的半马氏MDP.pdfVIP