马尔科夫质量控制模型-重庆大学学报.PDF

下载文档 降价啦

4
0
约7.86千字
约 6页
2019-02-22 发布于天津
举报
版权申诉
保障服务

马尔科夫质量控制模型-重庆大学学报.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第 l9卷第 1期重庆建筑大学学撒 Vo】l9 No 1 1997年 2月 Journal of Chongqing jianzhu University Feb 1997 马尔科夫质量控制模型 f。 l 盟号研皂类杨春巍 (重庆建筑大学基葡萄再焉重庆6301345) _2 z／蒸摘要科夫质量控制模型及求肛的连控。关键词革规划．马尔科夫质量控制，模型．最优策略 ——‘———… —— ———一中图法分 1．5 1 MDP模型马尔科夫决策规划(Markovian Decision Programming简称MDP)是研究动态随机系统的最优化问题。所研究的系统是能够连续、周期地进行观察。在观察时刻．决策者根据观察到的状态，从研究的可付诸实施的决策集中选定一个决策，通过实施，则产生两种结果： (1)确定了系统状态概率的转移规律，是具马尔科夫性(无后效性．即所选决策实施的结果与此时刻前的历史无关) (2)所选定决策实施，将获得一定的经济效益，也具有马尔科夫性。动态随机系统发展的不同途径将获得不同的经济效益。要求在各个时刻先取决策，使系统处于最优运行状态，即选取最优策略。假定在时刻t=0，1，2，……观察系统，则离散时间MDP是一个五元组 {s、(A(i)， ∈S)，q，r，VI所构成。 1)S：系统的“状态集”，为一非空集．s的元素称为状态S=S(5．，J，……)。一般，s 为一可列集。 2)A(i)i∈S；状态可用的“决策。一般，A(i)为一可列集。 3)口：系统的转移概率，是一族时间上齐次的马尔科夫转移律。每逢系统处于状态／，选取决策。∈A( )，刚不管系统的历史如何，下次转移到状态，的概率为g(，j J，a)记为q (d)。 4)r：系统的报酬函数，r是定义在r二I(i，n)：a∈A( )．i∈S}上的有界单值实函数。每当系统处于状态i，选取决策。，则可获得一个报酬r：(i 。)，它与历史无关。 5)v：系统的目标函数，v是定义是s×lI上的单值实函数，【l是全体策略所成之集。 t≥ 0 令 t，6t ．6t ∈A( )…i∈S}n=0，1，2，……，t 收稿日期：【995—05—26 橱春巍男，1940年生，副教授第 1期杨春巍马尔科夫质量控村模型称为系统直到时刻t的一个“历史”，这样历史的全体构成H，称系统直到时刻t的历史集。 h， ∈H『一 q(，l h _l-i ，d )=q( i ．＆ ) ES t=0．1，2，···-·· 表示转移概率与历史无关，即马尔科夫性。 2 MDP决策过程一个策略(policy) 是一个序列 ={7to，，……1．其中 t≥0，h， ∈H ∈ S． (·l h … i )是A(i )上的一个概率分布。全体策略集记作儿。 h 一 ∈Hl— i ES 总存在一个n ∈A(i )，使得 (n l h 一 i )=it≥0则称为一个“决策性策略”．全体决定性策略之集记为¨ 。又若一个策略 =} ，丌I， ……l t≥0它的依赖于时刻t所处的状态i，即丌．(·l h ．i )；丌‘(·l i )则称为“随机马尔科夫策略”，它的全体组成的集称为“随机马尔科夫策略类”，记为儿。一个随机马尔科夫策略 =l ，，c】．m．……}，如果它的每个．均是一个退化概率分布．则称为“马尔科夫策略”，全体马尔科夫策略所成之集称为“马尔科夫策略类”，记为儿定义在s上的映象，．映i入A(i)，即，(i)EA(i