- 1、本文档共41页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第六章 马尔可夫模型
马尔可夫模型 马尔可夫模型 马尔可夫模型是一种统计模型,广泛地应用在语音识别,词性自动标注,音字转换,概率文法等各个自然语言处理的应用领域。 马尔可夫(1856~1922),苏联数学家。切比雪夫的学生。在概率论、数论、函数逼近论和微分方程等方面卓有成就。 经过长期发展,尤其是在语音识别中的成功应用,使它成为一种通用的统计工具。 马尔可夫模型的典型应用 语音识别 音字转换 词性标注 回顾:n-gram语言模型 链规则: N-gram语言模型: N-1阶马尔可夫过程(链) 仅适用一种概率分布进行统计推导,例如在trigram模型中, 马尔可夫假设(特征) 设 X=(X1, .., Xt)是随机变量序列,其中每个随机变量的取值 在有限集 S={s1, …, sn}, S称为状态空间, 马尔可夫特征是: 有限历史假设(Limited (Horizon,Context,History)): P(Xt+1=sk|X1, .., Xt)=P(X t+1 = sk |Xt) 时间不变性假设(Time Invariant)(马尔可夫过程的稳定性假设): 这种条件依赖,不随时间的改变而改变。 如果X具有这些特征,那么这个随机变量序列称为一个马尔可夫过程(链) N阶马尔可夫模型 Trigram的情形: 只需修改状态空间的定义 定义新的变量 使得 并且约定: 马尔可夫模型的形式化表示 一个马尔可夫模型是一个三元组(S, ?, A) 其中 S是状态的集合,?是初始状态的概率, A是状态间的转移概率。 马尔可夫模型的图形表示 状态集合 分布 由状态i到状态j之间的转移弧上有一个条件转移概率: 隐马尔可夫模型(HMM) 各个状态(或者状态转移弧)都有一个输出,但是状态是不可见的。 最简单的情形:不同的状态只能有不同的输出 隐马尔可夫模型 增加一点灵活性:不同的状态,可以输出相同的输出: 隐马尔可夫模型 再增加一点灵活性:输出在状态转移中进行。 隐马尔可夫模型 最大的灵活性:在状态转移中以特定的概率分布输出 HMM的形式化定义 HMM是一个五元组 (S, K, ?, A, B) ,其中 S是状态的集合,K是输出字符的集合, ?是初始状态的概率,A是状态转移的概率。B是状态转移时输出字符的概率。 马尔可夫过程程序 t:= 1; 以概率?i在状态 si 开始 (i.e., X1=i) Forever do Move from state si to state sj with probability aij (i.e., Xt+1 = j) Emit observation symbol ot = k with probability bijk t:= t+1 End 隐马尔科夫模型的三个基本问题 给定一个模型 ,如何高效地计算某一输出字符序列的概率 给定一个输出字符序列O,和一个模型 ,如何确定产生这一序列概率最大的状态序列 给定一个输出字符的序列O,如何调整模型的参数使得产生这一序列的概率最大 网格(Trellis) 问题1评价(Evaluation) 给定一个模型 ,如何高效地计算某一输出字符序列的概率 方案1 方案1(Cont.) 方案2向前过程(forward procedure) 使用动态规划方法实现更加高效的算法 动机:对于任意一个长度为t+1的状态序列来说,其前t个输出字符出现的概率是相同的 定义:向前变量 方案2向前过程(forward procedure)cont. 方案2向前过程(forward procedure)cont. 向前过程算法 1、初始化 2、推导 3、总合 向前过程例 问题2 解码(decoding) 给定一个输出字符序列O,和一个模型 ,如何确定产生这一序列概率最大的状态序列 问题2 解码(decoding)cont. Viterbi algorithm 初始化 递归 结束 得到最优路径 Viterbi算法例 问题3 参数估计 已知输出字符序列,找到产生该序列可能性最大的模型 无法用分析方法求解 给定一个模型和输出字符序列,任意设定初始参数值,通过不断循环更新参数的方法,设法达到最优 Baum 1970 基本思想 1. 设定模型的初始值, μold. 2. 基于μold ,计算输出O 的概率 3. 如果 P(O|μnew)-P(O| μold) 某个设定的阈值 (或者达到某个固定的循环次数), 停止. 4. 否则,
您可能关注的文档
- 第4章 品种法、分批法、分步法、分类法和定额成本法.doc
- 第3章 环境影响评价基本方法-培训课件.ppt
- 第3章数字电视摄像技巧.ppt
- 第4章 多自由度系统振动.doc
- 第4章 声发射检测仪器系统.doc
- 第4章运筹学.ppt
- 第4课蒙古草原狼课件.ppt
- 第4章_工厂电力网路-工厂供配电技术.ppt
- 第5章相交线与平行线教案学案及其测试题.doc
- 第5章Protel 99SE 原理图编辑器报表文件.ppt
- 个人承诺书 15篇完整版 .pdf
- 部编版道德与法治三年级下册《1我是独特的》(省一等奖优质课)教案.pdf
- 部编人教版四年级语文下册.第六单元《乡村生活》作文范文 .pdf
- 数控技术应用专业(中职)人才培养方案 .pdf
- 2023年4月陕西咸阳市2023届高三三模英语试题卷(含答案word精校版).pdf
- 2024年高考语文作文热点预测+满分范文 .pdf
- 2023武汉市硚口区事业单位考试历年真题 .pdf
- 北京市朝阳区2013年事业单位《公共基本能力测验》(缺单选16-45题,72.pdf
- 社区社会工作基础知识试题(含答案)vr .pdf
- 2021康复医学治疗技术(士)模拟试题及答案5篇 .pdf
文档评论(0)