音频识别实现方法及其技术.ppt

下载文档 降价啦

8
0
约8.34千字
约 56页
2017-05-30 发布于河南
举报
版权申诉
保障服务

音频识别实现方法及其技术.ppt

1、本文档共56页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

音频识别实现方法及其技术

NO 计算匹配距离 Dist(i)=dtw(test.mfcc,ref(i).mfcc) in 测度最小距离 min{dist} 输出识别结果结束谢谢 HMM概念 HMM的状态是不确定或不可见的，只有通过观测序列的随机过程才能表现出来观察到的事件与状态并不是一一对应，而是通过一组概率分布相联系 HMM是一个双重随机过程，两个组成部分：马尔可夫链：描述状态的转移，用转移概率描述。一般随机过程：描述状态与观察序列间的关系，用观察值概率描述。 Markov链（?, A）随机过程（B）状态序列观察值序列 q1, q2, ..., qT o1, o2, ..., oT HMM的组成示意图 HMM组成 HMM的基本要素用模型五元组＝（ N, M, π ，A，B）用来描述HMM，或简写为 =(π ，A，B) 参数含义实例 N 状态数目缸的数目 M 每个状态可能的观察值数目彩球颜色数目 A 与时间无关的状态转移概率矩阵在选定某个缸的情况下，选择另一个缸的概率 B 给定状态下，观察值概率分布每个缸中的颜色分布 p 初始状态空间的概率分布初始时选择某口缸的概率 HMM可解决的问题问题1：给定观察序列O=O1,O2,…OT,以及模型 , 如何计算P(O|λ)？问题2：给定观察序列O=O1,O2,…OT以及模型λ,如何选择一个对应的状态序列 S = q1,q2,…qT，使得S能够最为合理的解释观察序列O？问题3：如何调整模型参数 , 使得P(O|λ)最大？解决问题1 基础方法给定一个固定的状态序列S=(q1，q2，q3…) 表示在qt状态下观测到Ot的概率 N=5, M=100, = 计算量10^72 解决问题1 前向法动态规划定义前向变量初始化：递归：终结：前向法示意图 1 ... t t+1 ... a1j at1 qN . qi . qj . . q1 atN ati aNj aij N=5, M=100, = 计算量3000 解决问题1 后向法与前向法类似定义后向变量初始化：递归：终结： Viterbi算法目的：给定观察序列O以及模型λ,如何选择一个对应的状态序列S ，使得S能够最为合理的解释观察序列O？ N和T分别为状态个数和序列长度定义：我们所要找的，就是T时刻最大的所代表的那个状态序列 Viterbi算法(续) 初始化：递归：终结：求S序列： Baum-Welch算法(模型训练算法) 目的：给定观察值序列O，通过计算确定一个模型l ，使得P(O| l)最大。算法步骤： 1. 初始模型（待训练模型） l0, 2. 基于l0 以及观察值序列O，训练新模型 l； 3. 如果 log?P(X|l) - log(P(X|l0) Delta，说明训练已经达到预期效果，算法结束。 4. 否则，令l0 ＝ l ，继续第2步工作 Baum-Welch算法(续) 定义： Baum-Welch算法(续2) 参数估计：几种典型形状的马尔科夫链 a. A矩阵没有零值的Markov链 b. A矩阵有零值的Markov链 c./d. 左－右形式的Markov链 N-Gram模型当两个历史的最近的N-1个词（或字）相同时，映射两个历史到同一个等价类，在此情况下的模型称之为N-Gram模型。 N-Gram模型被称为一阶马尔科夫链。 N的值不能太大，否则计算仍然太大。根据最大似然估计，语言模型的参数：其中，C(w1w2…wi)表示w1w2…wi在训练数据中出现的次数平滑技术的引入（1）传统的估计方法对于随机变量￡的N次独立观察的样本容量N有如下要求： NK 其中K为随机变量能够取到的值的个数。实际语言模型中往往无法满足这个要求。例如：词性标注问题，共有140个可能的标记，考虑当前词前后两个词的影响的三阶模型。 K=140*140*140=2,744,000 给定一个10万词左右的人工标注训练集，即 N=100,00，可见训练数据显得非常不足。平滑技术的引入（2）假设k泛指某一事件，N(k)表示事件k观察到的频数，极大似然法使用相对频数作为对事件k的概率估计： p(k)=N(k)/N 在语言模型中，训练语料中大量的事件N(k)=0，这显然没有反映