基于神经网络语音识别技术研究.pptVIP

下载本文档

6
0
约 65页
2017-09-09 发布于北京
举报
版权申诉

基于神经网络语音识别技术研究.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

1 语音识别基础目前主流的语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统可大致分为三部分： (a)语音特征提取：目的是从语音波形中提取随时间变化的语音特征序列。 (b)声学模型与模式匹配(识别算法)：声学模型是识别系统的底层模型，并且是语音识别系统中最关键的一部分。声学模型通常由获取的语音特征通过训练产生，目的是为每个发音建立发音模板。在识别时将未知的语音特征同声学模型(模式)进行匹配与比较，计算未知语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小(字发音模型、半音节模型或音素模型)对语音训练数据量大小、系统识别率，以及灵活性有较大影响。 (c)语义理解：计算机对识别结果进行语法、语义分析。明白语言的意义以便做出相应的反应，通常是通过语言模型来实现。 1.1 语音识别面临的问题。 1.2 本文的主要工作本文的主要工作是对现有的语音识别算法进行改进和验证，在前人研究的基础上，研究了语音信号参数的提取方法和常用识别算法，重点研究了HMM在语音识别中的应用，包括模型的原理，模型的建立、训练和识别等过程，对HMM模型的原理和核心算法和实际应用中的问题进行了深入的研究，提出了基于HMM/NPN的语音识别模型和算法，并验证。第1章绪论介绍了语音识别的历史和现状，所面临的问题，识别的基础和本文所做的工作及内容安排;第2章语音识别的系统描述和特征参数提取，重点在语音的预处理和LPCC和MFCC参数提取过程。第3章常用的训练和识别方法，重点介绍VQ、HMM、NN模型及一些算法。 2 系统描述和特征参数提取 2.1预处理（1）语音采样语音信号是随时间而变的一维信号，它所占据的频率范围可达10kHz以上，那么根据取样定理则其采样频率至少为20kHZ，但是对语音清晰度可懂度有明显影响的成分最高频率约为5.7kHZ，CCTT(国际电报电话咨询委员会)推出的数字电话G.7建议采样率为skHZ，只利用了3.4kHZ以内的信号分量，虽然这样的采样频率对语音清晰度是有损害的，但受损害的只有少数辅音，而语音信号本身冗余度是比较大的，少数辅音清晰度下降并不明显影响语句的可懂度。 (2)预加重由于语音信号S(n)的平均功率谱受声门激励和口鼻辐射的影响，高频端大约在800Hz以上按6dB/倍频程跌落，所以求语音信号频谱时，频率越高相应的成分越小，高频部分的频谱比低频部分的难求，为此要在对语音信号S(n)进行分析之前对其高频部分加以提升。使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪求频谱，以便于频谱分析或声道参数分析。通常的措施是用一阶数字滤波器实现预加重，其公式表示为: （3）加窗语音信号是一种典型的非平稳信号，其特性是随时间变化的，但是语音的形成过程是与发音器官的运动密切相关的，这种物理运动比起声音振动速度来讲要缓慢得多，因此语音信号常常可假定为短时平稳的，即在10-20ms的时间段内，其频谱特性和物理特征参量可近似地看作是不变的。这样，就可以采用平稳过程的分析处理方法来处理了。由这个假定导出了各种“短时”处理方法，以后讨论的各种语音信号都是分隔为许多短段(帧)语音再加以处理。这些短段语音就好像是来自一个具有固定特性的持续语音片断一样。对每一短段语音进行处理就等效于对固定特性的持续语音进行处理。短段语音之间彼此经常有一些重叠，对每一帧的处理结果可用一个数或是一个组数来表示。因此语音信号经过处理后将产生一个新的依赖于时间的数据系列，这些数据用于描述语音信号的特征。设原始语音信号采样系列为S(n)，将其分成一些短段，等效于乘以幅度为1的窗函数。当窗函数幅度不是1而是按一定函数取值时，所分成的短段语音的各个取样值将受到一定程度的加权。对语音信号的各个短段进行处理，实际上就是对各个短段进行某种变换或施以某种运算，其一般式为：（4）短时能量短时能量序列反映了语音振幅或能量随着时间缓慢变化的规律。从原始语音信号图中可以看到语音信号幅度随时间有相当的变化，特别是清音段的幅度一般比浊音段的幅度小很多，语音信号的短时能量给出了反映这些幅度变化的一个合适的描述方法。语音信号s（n）的短时能量的定义为：式中窗函数w(n)为上面讨论的任意一种，这里窗长N的选择对于反映语音信号的幅度变化起着决定的作用。如果N很大，它等效于很窄的低通滤波器，此时瓦随时间的变化很小，不能反映语音信号的幅度变化，信号的变化细节就看不出来;反之，N太小时，滤波器的通带变宽，En随时间有急剧的变化，不能得到平滑的能量函数。因此，窗口长度的选择应合适。短时平