第五章实验及总结.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第五章实验及总结

第五章 实验及总结 5.1 实验准备及步骤 实验平台为Windows平台上,采用Matlab数学工具通过完成程序而实现的。本实验主要采用DTW算法实现语音识别。 首先,我们使用windows自带的录音器,分别由我和合作者黄博录入了4组数据(1人两组),每组8个音频文件,本别为从“一”到“八”的汉语发音。其中一组为参考模板,另外一组为测试模板。 首先用wavread函数读入wav文件,用mfcc函数获得其MFCC参数,用vad函数对其进行端点检测,并保存语音部分的MFCC参数到参考模板的机构数组ref(i).mfcc中。 我们比较一下两个人的语音端点检测的短时信号图: 图5-1 说话者A发音的vad输出(1)——横轴:时间(单位:秒)纵轴:能量——(单位:eV)(上图)语音原始信号;Energy 短时能量(单位:eV);ZCR 过零率(单位:%) 图5-2 说话者A发音的vad输出(2)——横轴:时间(单位:秒)——纵轴:能量(单位:eV)(上图)语音原始信号;Energy 短时能量(单位:eV);ZCR 过零率(单位:%) 图5-3说话者B发音的vad输出(2)——横轴:时间(单位:秒)——纵轴:能量(单位:eV)(上图)语音原始信号;Energy 短时能量(单位:eV);ZCR 过零率(单位:%) Vad函数的功能就是通过端点检测功能甄别出语音信号的起始点与结束点,图中的红线就是程序标记的语音信号始末点,可以看出,杂音基本被排除,效果是非常明显的。 同时,从以上三个图的对比可以看出,不同发音者的发音波形及特性有较明显区别。 原始波形中,发音者A的波形在横轴两端不对称,而发音者B的波形在横轴两端比较对称; 能量波形中,两者的区别更加明显:发音者A的能量高峰在语音后部,发音者B的能量高峰在语音前部; 过零率波形中也可以明显看出两个人的区别。端点检测下的短时能量分析只是语音识别的第一步,但是通过该步骤已经可以粗略的区别出不同发音者,并且可以进一步分析发音者语音信号的特点。由此证明了端点检测在语音识别中是非常重要的。 5.2 实验结果及讨论 本实验的MATLAB运行环境中输出结果如下列图所示: 图5-4 说话者A的两组语音匹配结果及距离匹配矩阵 图6 说话者B的两组语音匹配结果及距离矩阵 从输出记过看,识别具有了一定程度的正确度。为了进一步验证结果,看一下匹配距离矩阵dist的数据如下图所示: 距离矩阵的对角线上是正确匹配模板的对应分数,可见对角线上的8个数值中有50%都是在本行中最小的,由此验证了识别结果的正确性。 图5-5说话者B的两组语音匹配结果及距离匹配矩阵 图5-6说话者A和B 的语音匹配结果及距离匹配矩阵 图5-7 说话者A和B的匹配矩阵的三维曲面图 图5-8 说话者A和B的匹配矩阵的的三维柱状图 图5-9 说话者A和B的匹配矩阵的灰度视图 结果显示:说话者A的自匹配识别率为89%,说话者B的自匹配识别率也为89% ,而A和B之间的识别率为62% 。 图5-4,图5-5,图5-6中的匹配矩阵元为每个语音信号和参考模板中所有共8个语音信号的匹配距离,可以看出,在正确识别情况下,矩阵对角线上的矩阵元是本行中最小的(同一个语音信号和自己匹配距离最小),在匹配失败的情况下,对角线上的矩阵元也是次最小的。这一结果说明了DTW的可靠性和稳定性。 图5-7,图5-8,图5-9以不同方式直观的显示了矩阵元的大小关系。X轴表示说话者A的语音信号编号,Y轴表示说话者B的语音信号编号,Z轴表示矩阵元的大小。 三维曲面图中的蓝色部分,灰度图中的全黑色部分为数值较小区域,可以看书,这个区域基本是在对角线上的。灰度图中的红色连线便显示了黑色方块分布在对角线上及附近。 自匹配的识别准确率达到90%,而不同发音者之间的识别率有明显下降,为60%。这也是显示出DTW算法在非特定人语音识别中不如特定人语音识别准确。 文献[1]指出,使用DTW算法的特定人孤立字语音识别率能高达近100% ,而我们始终无法达到这一效果。有几方面的原因: 1.录音设备和程序偏简单。一个非常良好和精确的模板库是高效率语音识别系统的基础。我们使用简易麦克风和windows自带录音程序可能无法建立一个完备的模板库。 2.DTW算法自身的缺陷。DTW自身算法只适用于孤立字语音识别,而且是简单字。因此识别机理上更加先进的HMM和ANN方法能够满足更高的要求。 对DTW算法进行改进(比如端点检测)已经提高了该算法的识别率。 3.DTW算法仅限于孤立字的语音识别,而连续语音的识别目前来说还比较难以达到高的识别率,这也是今后语音识别课题研究发展的方向。 5.3 实验结论 课题最终在MATLAB平台的基础上基本实现了个别个体的特定语音识别,基本上达到了预定的目的。基于DTW模型的语音识别简单的说

文档评论(0)

kakaxi + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档