- 1、本文档共56页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
音频识别实现方法及其技术
NO 计算匹配距离 Dist(i)=dtw(test.mfcc,ref(i).mfcc) in 测度最小距离 min{dist} 输出识别结果 结束 谢谢 HMM概念 HMM的状态是不确定或不可见的,只有通过观测序列的随机过程才能表现出来 观察到的事件与状态并不是一一对应,而是通过一组概率分布相联系 HMM是一个双重随机过程,两个组成部分: 马尔可夫链:描述状态的转移,用转移概率描述。 一般随机过程:描述状态与观察序列间的关系, 用观察值概率描述。 Markov链 (?, A) 随机过程 (B) 状态序列 观察值序列 q1, q2, ..., qT o1, o2, ..., oT HMM的组成示意图 HMM组成 HMM的基本要素 用模型五元组 =( N, M, π ,A,B)用来描述HMM,或简写为 =(π ,A,B) 参数 含义 实例 N 状态数目 缸的数目 M 每个状态可能的观察值数目 彩球颜色数目 A 与时间无关的状态转移概率矩阵 在选定某个缸的情况下,选择另一个缸的概率 B 给定状态下,观察值概率分布 每个缸中的颜色分布 p 初始状态空间的概率分布 初始时选择某口缸的概率 HMM可解决的问题 问题1:给定观察序列O=O1,O2,…OT,以及模型 , 如何计算P(O|λ)? 问题2:给定观察序列O=O1,O2,…OT以及模型λ,如何选择一个对应的状态序列 S = q1,q2,…qT,使得S能够最为合理的解释观察序列O? 问题3:如何调整模型参数 , 使得P(O|λ)最大? 解决问题1 基础方法 给定一个固定的状态序列S=(q1,q2,q3…) 表示在qt状态下观测到Ot的概率 N=5, M=100, = 计算量10^72 解决问题1 前向法 动态规划 定义前向变量 初始化: 递归: 终结: 前向法示意图 1 ... t t+1 ... a1j at1 qN . qi . qj . . q1 atN ati aNj aij N=5, M=100, = 计算量3000 解决问题1 后向法 与前向法类似 定义后向变量 初始化: 递归: 终结: Viterbi算法 目的:给定观察序列O以及模型λ,如何选择一个对应的状态序列S ,使得S能够最为合理的解释观察序列O? N和T分别为状态个数和序列长度 定义: 我们所要找的,就是T时刻最大的 所代表的那个状态序列 Viterbi算法(续) 初始化: 递归: 终结: 求S序列: Baum-Welch算法(模型训练算法) 目的:给定观察值序列O,通过计算确定一个模型l , 使得P(O| l)最大。 算法步骤: 1. 初始模型(待训练模型) l0, 2. 基于l0 以及观察值序列O,训练新模型 l; 3. 如果 log?P(X|l) - log(P(X|l0) Delta,说明训练已经达到预期效果, 算法结束。 4. 否则,令l0 = l ,继续第2步工作 Baum-Welch算法(续) 定义: Baum-Welch算法(续2) 参数估计: 几种典型形状的马尔科夫链 a. A矩阵没有零值的Markov链 b. A矩阵有零值的Markov链 c./d. 左-右形式的Markov链 N-Gram模型 当两个历史的最近的N-1个词(或字)相同时,映射两个历史到同一个等价类,在此情况下的模型称之为N-Gram模型。 N-Gram模型被称为一阶马尔科夫链。 N的值不能太大,否则计算仍然太大。 根据最大似然估计,语言模型的参数: 其中,C(w1w2…wi)表示w1w2…wi在训练数据中出现的次数 平滑技术的引入(1) 传统的估计方法对于随机变量£的N次独立观察的样本容量N有如下要求: NK 其中K为随机变量能够取到的值的个数。 实际语言模型中往往无法满足这个要求。 例如:词性标注问题,共有140个可能的标记,考虑当前词前后两个词的影响的三阶模型。 K=140*140*140=2,744,000 给定一个10万词左右的人工标注训练集,即 N=100,00,可见训练数据显得非常不足。 平滑技术的引入(2) 假设k泛指某一事件,N(k)表示事件k观察到的频数,极大似然法使用相对频数作为对事件k的概率估计: p(k)=N(k)/N 在语言模型中,训练语料中大量的事件N(k)=0,这显然没有反映
文档评论(0)