HMM基本原理和在语音识别中应用.ppt

  1. 1、本文档共81页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
HMM基本原理和在语音识别中应用

第十章 语音识别;10.1 概述; 语音识别系统分为两个方向:一是根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统;二是根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量,以及无限词汇量语音识别系统。 不同的语音识别系统,尽管设计和实现的细节不同,但所采用的基本技术是相似的。一个典型的语音识别系统如下页图所示。主要包括预处理、特征提取和训练识别网络。 ;输入;10.1.1 预处理;抗混叠滤波;预加重;2.端点检测; (1) 短时平均幅度 端点检测中需要计算信号的短时能量,由于短时能量的计算涉及到平方运算,而平方运算势必扩大了振幅不等的任何相邻取样值之间的幅度差别,这就给窗的宽度选择带来了困难,而用短时平均幅度来表示语音能量,在一定程度上可以克服这个弊端。; (2) 短时平均过零率 当离散信号的相邻两个取样值具有不同的符号时,便出现过零现象,单位时间内过零的次数叫做过零率。 如果离散时间信号的包络是窄带信号,那么过零率可以比较准确的反应该信号的频率。在宽带信号情况下,过零率只能粗略的反映信号的频谱特性。;10.1.2 语音识别特征提取; 孤立词语音识别系统的特征提取一般需要解决两个问题: 一个是从语音信号中提取(或测量)有代表性的合适的特征参数(即选取有用的信号表示); 另一个是进行适当的数据压缩。 对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从信息论角度讲,这也是信息压缩的过程。; 语音信号的特征主要有时域和频域两种。 时域特征:短时平均能量、短时平均过零率、共振峰、基音周期等; 频域特征:线性预测系数(LPC)、LP倒谱系数(LPCC)、线谱对参数(LSP)、短时频谱、Mel频率倒谱系数(MFCC)等。 目前已有结合时间和频率的特征,即时频谱,充分利用了语音信号的时序信息;以及基于听觉模型的特征参数提取,如感知线性预测(PLP)分析。; 1.线性预测系数(LPC); 根据语音产生的模型,语音信号S(z)是一个线性非移变因果稳定系统V(z)受到信号E(z)激励产生的输出。在时域中,语音信号s(n)是该系统的单位取样响应v(n)和激励信号e(n)的卷积。语音产生的声道模型是一个可用下式阐述的全极点模型: ; 根据最小均方误差对该模型参数ak进行估计,就得到了线性预测编码(LPC)算法,求得的 即为LP系数(p为预测器阶数)。对LPC的计算方法有自相关法(Levinson-Durbin莱文逊-杜宾法)、协方差法、格型法等。计算上的快速有效保证了这一声学特征的广泛使用。; 2.LPC倒谱系数(LPCC); 3.Mel频率倒谱系数(MFCC); 这里,MFCC系数的个数L通常取最低的12~16。在谱失真测度定义中通常不用0阶倒谱系数,因为它是反映倒谱能量的。上面所说的在频域进行带通滤波是对能量谱进行滤波,这样做的根据是考虑到一个多分量信号的总能量应该是各个正交分量的能量之和。; 4. 过零峰值幅度(ZCPA) ; 近年来,基于听觉模型的语音特征提取方法在语音识别领域日益受到重视。 过零峰值幅度特征ZCPA就是基于人类听觉特性的一种特征。 下图给出了基于人耳听觉特性的ZCPA特征提取原理图: ;ZCPA原理框图; 该系统由带通滤波器组、过零检测器、峰值检测器、非线性压缩和频率接收器组成。带通滤波器组由16个FIR滤波器组成,用来仿真耳蜗基底膜;过零检测器、峰值检测器、非线性压缩部分则仿真听觉神经纤维。从过零检测器获得频率信息,峰值检测器获得强度信息,经非线性压缩后,用频率接收器合成频率信息和强度信息,最后将16路所获得的信息合成为语音信号的特征。;10.1.3 语音识别方法; 模式匹配常用的技术有矢量量化(VQ)和动态时间规整(DTW); 统计型模型方法常见的是隐马尔可夫模型(HMM); 语音识别常用的神经网络有反向传播(BP)网络、径向基函数网络(RBF)及小波网络。 本书重点介绍经典的隐马尔可夫模型及其在语音识别中的应用。 ; 模式匹配法用于语音识别共有四个步骤:特征提取、模板训练、模板分类、判决。其原理框图如下:; 训练过程:输入语音经过预处理后,语音信号的特征被提取出来,首先在此基础上建立所需的

文档评论(0)

sy78219 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档