- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第十六章:马尔科夫决策
目 录 MM的由来 马尔可夫性和马尔可夫链 HMM实例 HMM的三个基本算法 马尔科夫决策 马尔可夫性 如果一个过程的“将来”仅依赖“现在”而不依赖“过去”,则此过程具有马尔可夫性,或称此过程为马尔可夫过程 X(t+1) = f( X(t) ) 从Xt到Xt+1的转换只依赖于Xt 马尔科夫链 时间和状态都离散的马尔科夫过程称为马尔科夫链 记作{Xn = X(n), n = 0,1,2,…} 在时间集T1 = {0,1,2,…}上对离散状态的过程相继观察的结果 链的状态空间记做I = {a1, a2,…}, ai∈R. 条件概率Pij ( m ,m+n)=P{Xm+n = aj|Xm = ai} 为马氏链在时刻m处于状态ai条件下,在时刻m+n转移到状态aj的转移概率。 转移概率矩阵 转移概率矩阵(续) 由于链在时刻m从任何一个状态ai出发,到另一时刻m+n,必然转移到a1,a2…,诸状态中的某一个,所以有 当Pij(m,m+n)与m无关时,称马尔科夫链为齐次马尔科夫链,通常说的马尔科夫链都是指齐次马尔科夫链。 HMM实例 HMM实例——描述 设有N个缸,每个缸中装有很多彩球,球的颜色由一组概率分布描述。实验进行方式如下 根据初始概率分布,随机选择N个缸中的一个开始实验 根据缸中球颜色的概率分布,随机选择一个球,记球的颜色为O1,并把球放回缸中 根据描述缸的转移的概率分布,随机选择下一口缸,重复以上步骤。 最后得到一个描述球的颜色的序列O1,O2,…,称为观察值序列O。 HMM实例——约束 在上述实验中,有几个要点需要注意: 不能直接观察缸间的转移 从缸中所选取的球的颜色和缸并不是 一一对应的 每次选取哪个缸由一组转移概率决定 HMM概念 HMM的状态是不确定或不可见的,只有通过观测序列的随机过程才能表现出来 观察到的事件与状态并不是一一对应,而是通过一组概率分布相联系 HMM是一个双重随机过程,两个组成部分: 马尔可夫链:描述状态的转移,用转移概率描述。 一般随机过程:描述状态与观察序列间的关系, 用观察值概率描述。 HMM组成 HMM的基本要素 用模型五元组 =( N, M, π ,A,B)用来描述HMM,或简写为 =(π ,A,B) HMM可解决的问题 问题1:给定观察序列O=O1,O2,…OT,以及模型 , 如何计算P(O|λ)? 问题2:给定观察序列O=O1,O2,…OT以及模型λ,如何选择一个对应的状态序列 S = q1,q2,…qT,使得S能够最为合理的解释观察序列O? 问题3:如何调整模型参数 , 使得P(O|λ)最大? 解决问题1 基础方法 解决问题1 前向法 解决问题1 后向法 Baum-Welch算法(模型训练算法) 目的:给定观察值序列O,通过计算确定一个模型l , 使得P(O| l)最大。 HMM的应用领域 金融领域 运营管理 质量管理 市场营销 语音识别 机器视觉 图像处理 生物医学分析 马尔科夫决策 马尔科夫决策方法就是根据某些变量的现在状态及其变化趋向,来预测它在未来某一特定期间可能出现的状态,从而提供某种决策的依据。 马尔科夫决策基本方法是用转移概率矩阵进行预测和决策。 主要参考文献 1. Lawrence R. Rabiner, A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. Proceedings 1989. 转移概率矩阵的特点: (1)转移矩阵中的元素非负,即: (2)矩阵各行元素之和等于1,即: 回总目录 回本章目录 (1)转移概率矩阵中的元素是根据近期市场 或顾客的保留与得失流向资料确定的。 (2)下一期的概率只与上一期的预测结果有 关,不取决于更早期的概率。 (3)利用转移概率矩阵进行决策,其最后结 果取决于转移矩阵的组成,不取决于原 始条件,即最初占有率。 用马尔科夫决策方法进行决策的特点: 回总目录 回本章目录 二、转移概率矩阵决策的应用步骤 转移概率矩阵决策的步骤如下: 1、建立转移概率矩阵。 2、利用转移概率矩阵进行模拟预测。 3、求出转移概率矩阵的平衡状态,即稳 定状态。 4、应用转移概率矩阵进行决策。 回总目录 回本章目录 第十六章 马尔科夫过程及决策 y MM的由来 1870年,俄国有机化学家Vladimir V. Markovnikov第一次提出马尔
文档评论(0)