语音识别人机交互小论文.doc

下载文档

82
0
约2.04千字
约 5页
2017-07-18 发布于湖北
举报
版权申诉
保障服务

语音识别人机交互小论文.doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

计算机科学与信息工程学院《人机交互》课程小论文 2014年6月语音识别 1、语音识别的背景与意义语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术，语音识别技术一直受到各国科学界的广泛关注。语音识别本质上是一种模式识别的过程，未知语音的模式与已知语音的参考模式逐一进行比较，最佳匹配的参考模式被作为识别结果。图1是基于模式匹配原理的自动语音识别系统原理框图。预处理模块：对输入的原始语音信号进行处理，滤除掉其中的不重要的信息以及背景噪声，并进行语音信号的端点检测、语音分帧以及预加重等处理。特征提取模块：负责计算语音的声学参数，并进行特征的计算，以便提取出反映信号特征的关键特征参数用于后续处理。现在较常用的特征参数有线性预测（LPC)参数、线谱对（LSP)参数、LPCC、MFCC、ASCC、感觉加权的线性预测（PLP)参数、动态差分参数和高阶信号谱类特征等[1]。其中，Mel频率倒谱系数（MFCC)参数因其良好的抗噪性和鲁棒性而应用广泛。 (3)训练阶段：用户输入若干次训练语音，经过预处理和特征提取后得到特征矢量参数，建立或修改训练语音的参考模式库。 (4)识别阶段：将输入的语音提取特征矢量参数后与参考模式库中的模式进行相似性度量比较，并结合一定的判别规则和专家知识（如构词规则，语法规则等)得出最终的识别结果。、语音识别的几种基本方法 ??当今语音识别技术的主流算法，主要有基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于人工神经网络(ANN)和支持向量机等语音识别方法。 1) 动态时间规整(DTW) ??DTW是把时间规整和距离测度计算结合起来的一种非线性规整技术，是较早的一种模式匹配和模型训练技术。该方法成功解决了语音信号特征参数序列比较时时长不等的难题，在孤立词语音识别中获得了良好性能。 2) 矢量量化(VQ) ??矢量量化是一种重要的信号压缩方法，主要适用于小词汇量、孤立词的语音识别中。其过程是：将语音信号波形的k个样点的每1帧，或有k个参数的每1参数帧，构成k维空间中的1个矢量，然后对矢量进行量化。量化时，将k维无限空间划分为M个区域边界，然后将输入矢量与这些边界进行比较，并被量化为“距离”最小的区域边界的中心矢量值。 3) 隐马尔可夫模型(HMM) ??HMM是对语音信号的时间序列结构建立统计模型，将其看作一个数学上的双重随机过程：一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程，另一个是与Markov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来，但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程，语音信号本身是一个可观测的时变序列，是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流。HMM合理地模仿了这一过程，很好地描述了语音信号的整体非平稳性和局部平稳性，是较为理想的一种语音模型。 4 )人工神经元网络(ANN) ??人工神经元网络在语音识别中的应用是目前研究的又一热点。ANN实际上是一个超大规模非线性连续时间自适应信息处理系统，它模拟了人类神经元活动的原理，最主要的特征为连续时间非线性动力学、网络的全局作用、大规模并行分布处理及高度的稳健性和学习联想能力。这些能力是HMM模型不具备的。但ANN又不具有HMM模型的动态时间归正性能。因此，人们尝试研究基于HMM和ANN的混合模型，把两者的优点有机结合起来，从而提高整个模型的鲁棒性，这也是目前研究的一个热点。 5) 支持向量机（SVM) ??支持向量机是应用统计学习理论的一种新的学习机模型，它采用结构风险最小化原理(SRM)，有效克服了传统经验风险最小化方法的缺点，在解决小样本、非线性及高维模式识别方面有许多优越的性能。其基本思想可以概括为：首先通过非线性变换将输入空间变换到一个高维空间，然后在这个新空间中求取最优线性分类面，而这种非线性变换是通过定义适当的内积函数实现的。、语音识别所面临的问题 (1)识别系统的适应性差。主要体现在对环境依赖性强，特别在高噪音环境下语音识别性能还不理想。 (2)语音识别系统从实验室演示系统到商品的转化过程中，还有许多具体问题需要解决。例如，、识别速度、拒识等问题，还有连续语音中去除不必要语气词如“呃”、“啊”等语音的技术细节问题。 (3)语言学、生理学、心理学方面的研究成果已有不少，但如何把这些知识量化、建模并用于语音识别，还需要进一步研究。 3、、语音识别技术的前景展望 ??语音作为当前通信系统中最自然的通信媒介，语音识别技术是非常重要的人机交互技术。随着计算机和语音处理技术的发展，语音识别系