基于中英文数字语音登陆系统仿真探究.docVIP

下载本文档

1
0
约2.9千字
约 6页
2017-08-16 发布于福建
举报
版权申诉

基于中英文数字语音登陆系统仿真探究.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于中英文数字语音登陆系统仿真探究

基于中英文数字语音登陆系统仿真探究引言语言是人与人之间在日常交往中最直接也是最强大的工具，然而我们并不满足于人与人之间的对话，而是通过语音识别技术来实现人机对话，语音识别技术的终极目标就是能够让人类与计算机进行自由地交谈。随着语音识别技术的逐渐成熟及近些年来已经取得的进步，英文数字语音识别在其发展的20多年间已达到了很高的识别率，汉语数字语音识别也经过多年研究在PC平台和实验室条件下达到了高性能[1]，但中英文混合连续数字语音识别还有待进一步研究，张晴晴[2]等人研究的中英双语混合语音识别的识别率为16.8%，远低于理想中的识别率。为使识别效果达到可实用的水平，本系统首先从基本的中英文数字语音识别出发，从而为相应的登录注册系统做出一些尝试。本文研究的中英文连续数字语音识别，包含中文0-10和英文zero-ten的数字语音识别，其中包括对语音信号的预处理、特征参数提取、中英文声学模型与语言模型的训练及模版匹配等，适合于研究数字语音登录系统，比如用户用中英文任何语言念学号或是身份证号就能登陆，免去书写的麻烦，同时也对后续研究中英文混合连续语音识别奠定了基础。语音识别原理根据对说话人说话方式的要求，语音识别可以分为孤立字（词）语音识别系统，连接字语音识别系统以及连续语音识别系统；根据对说话人的依赖程度，语音识别可以分为特定人和非特定人语音识别系统[3]；根据词汇量大小，又可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量的语音识别系统。不同的语音识别系统，其目的和功能各不相同，但它们所采用的基本框架大体一致，语音识别基本流程如图1。语音识别的过程，其本质就是模式匹配的过程。语音信号经过预处理、语音信号的特征提取、声学模型的训练与模式匹配后，经过处理输出识别结果。其中： 1)预处理是对输入的原始语音信号进行处理，滤除掉其中不重要的信息和背景噪声，并进行语音信号的端点检测、语音分帧以及预加重等处理。 2)特征提取主要负责计算语音的图1 语音识别基本流程图声学参数，并进行特征的计算，以便提取出反映信号特征的关键特征参数，从而用于后续处理。因Mel频率倒谱系数（MFCC）具有良好的抗噪性和鲁棒性，故本文采用MFCC提取特征参数。 3)训练阶段是用户通过输入若干次训练语音后，经预处理和特征提取后得到特征矢量参数，建立或修改训练语音的参考模式库。 4)识别阶段是将输入的语音提取特征矢量参数与参考模式库中的模式进行匹配，得出最终的识别结果。 HTK搭建识别系统 HTK（HMM Tool Kit）是英国剑桥大学工程系（CUED）开发出来的一套用于处理隐马尔科夫模型（HMM）的实验工具包，广泛用于语音识别研究当中，它由模型库和工具组成，这些都是由C源代码的形式组成[4]。基于HTK搭建中英文数字语音登陆系统体系结构如图2 。其步骤可总结如下： 1) 数据准备，训练数据和测试数据都要通过HCopy得到所需要的声学特征，典型的声学特征有Mel频率倒谱系数MFCC、感知线性预测plp等； 2)定义一个原始模型拓扑结构，设置参数，然后使用HCompV对所有训练数据进行初始化，从而求出全局HMM模型的均值与方差； 3)使用HERest进行迭代训练，也就是模型参数训练，它可以完成嵌入式HMM模型参数的计算。训练时，HERest顺次加载每个训练文件，实际上是先载入观察序列，然后使用对应的标注文件计算前后向概率，在累加器上进行更新，当所有的训练文件处理完毕后，就通过B-W算法更新模型参数； 4)为了改善模型，使用HMM编辑器HHEd建立上下文的绑定状态三音素模型[4]，由于一个音素发音会由于上下文音素的不同而产生不同的发音，也就是协同发音，故使用三音素捆绑和训练，可以有效解决协同发音的问题。为使结果更准确，绑定后还需使用HERest进行重估。 5)在得到识别网络、字典和声学模型的基础上，调用HVite识别器进行识别，识别结果保存在MLF 仿真实验与结果分析 1) 数据语音识别机理就是用训练数据与测试数据的声学模型进行匹配，另外还需要数据的标注文本，以及语音集合和字典，其中包含中文0-10和英文zero-ten的所有数字或单词。数据均为电话信道数据，采样率为8 kHz，16bit/s。语音特征提取为36维的MFCC，由12维的MFCC以及他们的一阶二阶差分组成[6]。标准中文训练数据有100句，测试数据有20句（一男一女各10句）；标准英文训练数据有8440句，测试数据有422句（一男一女各211句），另外还有中英文混合测试数据442句。这两个数据集的具体信息见表1和表2。 2) 任务语法的定义