马尔科夫质量控制模型-重庆大学学报.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第 l9卷 第 1期 重 庆 建 筑 大 学 学 撒 Vo】l9 No 1 1997年 2月 Journal of Chongqing jianzhu University Feb 1997 马尔科夫质量控制模型 f。 l 盟号 研皂类 杨春巍 (重庆建筑大学基葡萄再焉 重庆6301345) _2 z/ 蒸 摘 要 科夫质量控制模型及求肛的连控。 关键词 革规划.马尔科夫质量控制,模型.最优策略 ——‘———… —— ———一 中图法分 1.5 1 MDP模型 马尔科夫决策规划(Markovian Decision Programming简称MDP)是研究动态随机系统 的最优化问题。所研究的系统是能够连续、周期地进行观察。在观察时刻.决策者根据观察到 的状态,从研究的可付诸实施的决策集中选定一个决策,通过实施,则产生两种结果: (1)确定了系统状态概率的转移规律,是具马尔科夫性(无后效性.即所选决策实施的结 果与此时刻 前的历史无关) (2)所选定决策实施,将获得一定的经济效益,也具有马尔科夫性。 动态随机系统发展的不同途径将获得不同的经济效益。要求在各个时刻先取决策,使系 统处于最优运行状态,即选取最优策略。 假定在时刻t=0,1,2,……观察系统,则离散时间MDP是一个五元组 {s、(A(i), ∈S),q,r,VI所构成。 1)S:系统的“状态集”,为一非空集.s的元素称为状态S=S(5. ,J,……)。一般,s 为一可列集。 2)A(i)i∈S;状态 可用的“决策 。一般,A(i)为一可列集。 3)口:系统的转移概率,是一族时间上齐次的马尔科夫转移律。每逢系统处于状态/,选 取决策。∈A( ),刚不管系统的历史如何,下次转移到状态,的概率为g(,j J,a)记为q (d)。 4)r:系统的报酬函数,r是定义在r二I(i,n):a∈A( ).i∈S}上的有界单值实函 数。每当系统处于状态i,选取决策。,则可获得一个报酬r:(i 。),它与历史无关。 5)v:系统的目标函数,v是定义是s×lI上的单值实函数,【l是全体策略所成之集。 t≥ 0 令 t,6t .6t ∈A( )…i∈S}n=0,1,2,……,t 收稿日期:【995—05—26 橱春巍 男,1940年生,副教授 第 1期 杨春巍 马尔科夫质量控村模型 称为系统直到时刻t的一个“历史”,这样历史的全体构成H,称系统直到时刻t的历史集。 h, ∈H『一 q(,l h _l-i ,d )=q( i .& ) ES t=0.1,2,···-·· 表示转移概率与历史无关,即马尔科夫性。 2 MDP决策过程 一 个策略(policy) 是一个序列 ={7to, ,……1.其中 t≥0,h, ∈H ∈ S. (·l h … i )是A(i )上的一个概率分布。全体策略集记作儿。 h 一 ∈Hl— i ES 总存在一个n ∈A(i ),使得 (n l h 一 i )=it≥0则称为一个“决策性策略”.全体决定 性策略之集记为¨ 。 又若一个策略 =} ,丌I, ……l t≥0它的 依赖于时刻t所处的状态i,即 丌.(·l h .i );丌‘(·l i )则称为“随机马尔科夫策略”,它的全体组成的集称为“随 机马尔科夫策略类”,记为儿 。一个随机马尔科夫策略 =l ,,c】.m.……},如果它的每个 . 均是一个退化概率分布.则称为“马尔科夫策略”,全体马尔科夫策略所成之集称为“马尔科 夫策略类”,记为儿 定义在s上的映象,.映i入A(i),即,(i)EA(i

文档评论(0)

136****3783 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档