- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语音识别改进方法及难点分析
——《模式识别》结课小论文
学院:化工与环境学院
学号: 2120151177
姓名:杜妮
摘要:随着计算机技术的不断发展,人工智能程度也越来越高,作为人工智 能的一部分——模式识别也在模型和算法上愈发成熟。本文根据近 105 年文献,
分析最新声音识别的方法和应用。
关键字:模式识别 声音识别 方法 应用
随着人工智能的迅速发展, 语音识别的技术越来越成为国内外研究机构的焦 点。人们致力于能使机器能够听懂人类的话语指令, 并希望通过语音实现对机器 的控制。语音识别的研究发展将在不远的将来极大地方便人们的生活。
语音识别大致的流程包括: 特征提取、声学模型训练、 语音模型训练以及识 别搜索算法。 作为一项人机交互的关键技术, 语音识别在过去的几十年里取得了 飞速的发展,人们在研究和探索过程中针对语音识别的各部流程进行了各种各样 的尝试和改造, 以期发现更好的方法来完成语音识别流程中的各步骤, 以此来促 进在不同环境下语音识别的效率和准确率。本文通过查阅近 10 年国内外文献, 分析目前语音识别流程中的技术进展和趋势, 并在文章最后给出几项语音识别在 日常生活中的应用案例,从而分析语音识别之后的市场走势和实际利用价值。
一、语音识别的改进方法
( 一 ) 特征提取模块改进
特征提取就是从语音信号中提取出语音的特征序列。 提取的语音特征应该能 完全、准确地表达语音信号, 特征提取的目的是提取语音信号中能代表语音特征 的信息,减少语音识别时所要处理的数据量。 语音信号的特征分析是语音信号处 理的前提和基础, 只有分析出可以代表语音信号本质特征的参数, 才能对这些参 数进行高效的语音通信,语音合成,和语音识别等处理,并且语音合成的好坏, 语音识别率的高低, 也都取决于语音特征提取的准确性和鲁棒性。 目前, 针对特 定应用的中小词汇量、 特定人的语音识别技术发展已较为成熟, 已经能够满足通 常应用的要求,并逐步投入了实用。而非特定人、大词汇量、连续语音识别仍是 目前阶段语音识别研究的重点和难点 【1】。由于考虑到人耳的听觉特性, Mel 倒 谱系数或感知线性预测系数 【2】已经成为目前主流的语音特征向量提取方法之一, 加上它们的一阶、二阶差分以及对特征向量进行归一化处理以后, 在大词汇量 连续语音识别问题上取得不错的结果。
语音识别技术中最流行的特征参数时基于声道模型和听觉机理的 LPCC(Linear Predictive Cepstral Coeficients) 和 MFCC(Mel Frequency Cepstral cocficients) 参数,而 MFCC在低频段具有较高的谱分辨率,对噪声的 鲁棒性优于 LPCC,更适合语音识别。但与人听觉系统非凡的感知能力比较,不 管是 LPCC还是 MFCC参数,在不利的噪声环境下, 其鲁棒性都会急剧下降。 如何 在特征提取过程中抽取保持语音信号最重要的特征参数, 成为一个急需解决的问 题。
对语音识别实际应用过程中的噪声问题, 付丽辉给出了一种新的抗噪声的特 征提取算法, 即先利用小波变换将语音信号进行小波子带分解, 再根据人耳的听 觉掩蔽效应,由谱压缩的技术, 将小波变换后的子带语音信号进行压缩, 从而提 取其对应的语音特征。通过 MATLAB软件建立实验平台,仿真实验结果表明该语 音特征可以在噪声环境下得到较高的识别率。 新的特征参数即充分利用了小波的 抗噪声特性又有效地降低了语音识别中的训练环境和识别环境间的失配, 具有抗 噪声的特点 【3】。
为克服 FIR 滤波器存在的通阻带特性差、 滤波器阶次高等缺点给语音识别系 统带来的不利影响,黄丽霞等人采用 Laguerre 滤波器组代替过零峰值幅度特征 提取中使用的 FIR 滤波器组进行前端处理。 在仔细研究 FIR 滤波器参数确定方法 的基础上, 详细介绍了 La-guerre 滤波器原理及参数计算方法, 并给出了计算结 果。孤立词、非特定人语音识别实验结果表明,使用 Laguerre 滤波器不仅使识 别系统抗噪性能优于使用 FIR 滤波器,而且滤波器阶数也大为下降 【4】。
陈斌等人提出了一种基于最小分类错误 (Minimum classification error ,
MCE准) 则的线性判别分析方法 (Linear discriminant analysis , LDA) ,并将 其应用到连续语音识别中的特征变换。 该方法采用非参数核密度估计方法进行数 据概率分布估计; 根据得到的概率分布, 在最小分类错误准则下, 采用基于梯度 下降的线性搜索算法求解判别分析变换矩阵。 利用判别分析变换矩阵对相邻帧梅
尔滤波器组输出拼接的超矢量变换降维, 得到时频特征。 实验结果表明, 与传统 的 MFCC
原创力文档


文档评论(0)