马尔可夫决策规划2.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
马尔可夫决策规划2

马尔可夫决策规划 第二讲 马尔可夫链与马尔可夫过程 §2.1 马尔可夫链 为书写方便,下面用X表示随机变量(ξ)。 定义2.1:随机变量序列{Xn, n=0,1,2,......}称为是一个马尔科夫(Markov)链,如果等式p{Xm+k=j|Xm=i, XkL=iL, ......, Xk2=i2, Xk1=i1} =p{Xm+k=j|Xm=i}对任意整数k、L、m以及非负整数mkL…k2k1均成立。其中, Xm=i表示马尔科夫链在第m步(时刻m)位于状态i,状态i的集合S称为状态空间; p(k)ij(m)=p{Xm+k=j|Xm=i}称为在时刻m位于状态i经k步转移到达状态j的k步转移概率,而pij(m)= p(1)ij(m) 称为时刻m的1步转移概率; P(k)(m)=(p(k)ij(m))称为时刻m的k步转移概率矩阵,而P(m)=(p(1)ij(m))=(pij(m))称为时刻m的1步转移概率矩阵。 Markov满足的K-C方程如下: A. P(k)(m)= P(l)(m)P(k-l)(m+l),其中0≤l≤k 约定:P(0)(m)=I B. 约定: 定义2.2:马尔科夫链{Xn, n=0,1,2,......}称为是齐次的,是指它在时刻m的1步转移概率矩阵P(m)与m无关,它等价于P(k)(m)与m无关。其中, P(k)=(p(k)ij)称为齐次马氏链的k步转移概率矩阵,而P= (pij)称为齐次马氏链的1步转移概率矩阵。相应地有, A. K-C方程:P(k) = P(l)P(k-l),其中0≤l≤k B. P(k)=Pk C. 马尔科夫链的概率分布:设{Xn, n=0,1,2, ......}为一马尔科夫链,X0的分布列(初始分布)为(约定马尔科夫链的概率分布列为行向量),记为Xn的分布列或Markov链在时刻n的瞬时分布列,{P(n), n=0,1,2,......}为一步转移概率矩阵的集合,则有: C1:(非齐次) C2:(齐次) 关于马氏链的存在性:对任意给定的分布列和一束随机矩阵{P(n), n=0,1,2,......},a.s唯一地存在某概率空间(Ω, F, P)为初始分布列、以{P(n), n=0,1,2,......}为转移概率矩阵的集合。因此,齐次马氏链由它的初始分布和一步转移概率矩阵唯一决定。 例2.1 假设三个食品公司分别生产三种不同牌子的方便面。它们除通过改进成品口味、美化包装以增强在市场的竞争力外,还各自开展了广告攻势促销本公司的产品。因此,各公司所占的市场比例是随时间有所变化的,可以根据个别人的行为来推断多数人的行为。比如,随机选择的个人若以概率1/2偏爱公司1生产的方便面,则表明公司1占有50%的市场比例。以表示随机选择的个人(样本空间的一个元素)在第n周所偏爱的公司。有理由认为,当给定现在的偏爱,将来的偏爱与过去的选择无关。于是,便构成一个以为状态空间的Markov链。假设在任一时刻,公司1能留住它1/2的老顾客,其余的则对半购买另两个公司的产品。公司2的一半顾客在下周改买公司1的产品,其余的仍购买公司2的产品。公司3能维持其3/4的老顾客,其余的则在下周流向公司2。即Markov链的转移概率矩阵可表示为 (2.1) 公司对第n周它所占有的市场份额感兴趣,即概率。再者当n趋于无穷时,若这一概率的极限存在,则此极限概率也是令各公司感兴趣的,它刻画了公司i占有市场的稳态概率。 例2.2 继续考虑例2.1的三个食品公司之间的竞争问题,描述顾客偏爱变化情形的转移概率矩阵P已由(2.1)式给出, 求出; 假设已知任一初始分布,求。 [解]:利用关系式计算 首先,求出与转移概率矩阵P对应的特征值及特征向量。由得 即转移概率矩阵P的三个特征值分别为,,。 为求特征向量,令与特征值对应的特征向量为,由于,列出方程组即可求得,此处不再详述。取为相应于特征值1的特征值向量,再分别求出与特征值及相对应的特征向量与。鉴于特征值、与互不相同,故可知与必线性无关。若令 , 则可逆,且有,可以算出,于是 于是有 (2) 设是任一初始分布,则由分布概率与转移概率的关系有。这表明,不管初始时三个食品公司所占的市场份额如何,在经过充分长的一段时间的竞争后,每个公司所占的市场份额趋于稳定,均为左右。 §2.2 状态的分类及状态空间的分解 1、状态的常返性 定义2.3:设{Xn, n=0,1,2, ......}是一马尔科夫链,状态空间为S,称为由状态i出发经n步首次到达状态j的概率,其中,;称为由状态i出发经有限步到达状态j的概率。 显然,。进一步地,

文档评论(0)

tiangou + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档