最新语音识别技术与声纹鉴定原理.pptVIP

下载本文档

0
0
约1.64万字
约 10页
2025-02-17 发布于上海
举报
版权申诉

最新语音识别技术与声纹鉴定原理.ppt

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

语音合成的例子（霍金）不能说话和做手势，如何演讲写字？在霍金的眼镜上，约距右颊一英寸处，安装了负责侦测肌肉活动的红外线发射器及侦测器，譬如他想打招呼，说声你好，他先以眼球控制红外线感应器，选定在屏幕上轮流出现的英文字母，当计算机出现他想要的H时，霍金再动眼球，这样计算机就会不断显示以H为字头的英文字，当HELLO出现时，他又动一下以选定这个字，当他造句完毕后，才把句子传至合成器发声。因此霍金要说一句话，就要逐字逐句输入计算机，再由语音合成器将文字化成声音，一分钟只能处理3-5个字。0102科大讯飞语音合成在线演示3.3语音编码VOIP(VoiceOverInternetProtocol)语音编码的研究目的是如何在尽量减少失真的情况下高效率地对模拟语音信号进行数字表达。01数字通信系统02移动无线通信03保密语音通信语音编码的应用3.4说话人识别说话人识别（声纹识别）可分为两种：说话人辨认A说话人确认B目前，声纹识别已经在证券交易、银行交易、身份证、信用卡的认证等领域均有应用。在国外，声纹识别技术已经取得了较为广泛的应用。美国已把声纹识别用到保险、银行等行业，迪拜在交通管理上使用声纹验证来确认驾驶员身份，戴尔公司已经实施了声纹认证用于网上订购，菲律宾政府的养老金系统现在也可以通过声纹识别来完成身份认证。1在国内，声纹识别技术目前已广泛应用于嵌入式系统，同时其他方面的应用也逐渐兴起，如招商银行已经于2008年8月开始与以色列的PerSay公司进行声纹识别方面的项目合作。2声纹识别已成功应用在司法鉴定领域。利用声纹识别技术确定犯罪证据，如通过分析电话录音资料来确定犯罪嫌疑人的身份和犯罪行为等做法，已在一些刑事案件的侦破中得到应用。美国在1971年就公开认可使用声纹鉴定。在国内，随着各种录音设备的普及，声音材料的留存十分方便，因此一些案件就可以借助声纹鉴定来协助案件的侦查和审理。声纹鉴定已经成为国内司法鉴定机构的一种重要技术手段，其在司法活动的某些方面已然发挥出显著的作用。2．实验结果及讨论下表为使用ZCPA特征和HMM的不同词汇量单词在各种SNR下的识别结果比较。SNR(dB)15202530clean10词85.784.786.285.789.120词76.681.282.481.785.730词77.181.983.182.983.540词76.679.081.382.683.050词72.174.580.179.081.7矢量量化影响01由于系统使用的是离散隐马尔可夫模型方法，所以需要事先对每个单词的特征参数进行矢量量化，这样不可避免地会引入量化误差，所以应使用好的方法生成码书，以减小由此引起的失真，从而使系统性能所受影响尽可能减小。02系统性能影响因素的讨论初值设定影响HMM训练方法（Baum-Welch算法）本质上是一种梯度下降方法，在训练过程中有可能到达局部最小值。因此，初值的选取比较重要，好的初值可以避免局部极小问题。我们可以加入一定的优化方法来选取初值。在离散HMM中，参数B对系统的性能有很大影响，超过了参数A和?。所以也可以单独对参数B初值的选取采用一定的优化方法。训练数据量的影响为了训练出可靠的参数模型，必须加大训练集的数据。当在训练集中又加入了5个人的语音数据（共16人数据），测试集数据量不变，分别对10词到50词的数据进行了无噪音及信噪比为15dB、20dB、25dB、30dB、clean条件下的实验，结果如下表所示。实验结果表明增加训练集的样本数后，与9人训练相比系统识别率有大幅度提高。SNR(dB)15202530clean10词88.088.790.791.392.020词86.087.790.389.391.730词84.287.389.189.690.440词82.887.788.790.790.850词81.785.687.786.789.3输出概率矩阵的平滑问题12实验中采用的是最简单的基数法，它是将B矩阵中小于某个给定最小值的元素e(e依据生成矩阵确定）赋给一个值ε(ε取10-4~10-6)，然后修改B矩阵的其它元素使它满足约束条件：即在第j个状态下。3训练集的有限性使得训练完以后的B矩阵中有一些零元素，这些不合理的零概率会给识别带来一定的影响，解决这个问题有三种方法：基数法，距离法和同现法。实验结论：将B矩阵进行平滑处理后，对训练集