语音信号处理(ppt)语音识别【荐】.pptVIP

下载本文档

4
0
约4.18千字
约 22页
2017-08-07 发布于河南
举报
版权申诉

语音信号处理(ppt)语音识别【荐】.ppt

1、本文档共22页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

1.什么是说话人识别(SR)？说话人识别（Speaker Recognition, SR）技术是以话音对说话人进行区分，从而进行身份鉴别与认证的技术。在国外，说话人识别技术获得了广泛的研究，同时也有少量成熟产品问世。ATT、TI与美国著名的通讯公司Sprint都已经展开了在声音识别领域的实验和实际的应用。说话人识别技术有着广阔的市场应用前景。通过SR技术，可以利用人本身的生物特性进行身份鉴别，例如为公安部门进行语音验证、为一般用户提供防盗门开启功能等等。在互联网应用及通信领域，SR技术可以应用于诸如声音拨号、电话银行、电话购物、数据库访问、信息服务、语音E-mail、安全控制、计算机远程登录等领域。在呼叫中心应用上，SR技术同样可以提供更加个性化的人机交互界面。当顾客以电话方式对呼叫中心进行请求时，系统能够根据话音判断出来者的身份，从而提供更个性化、更贴心的服务。近年来，在生物识别技术领域中，声纹识别技术以其独特的方便性、经济性和准确性等优势受到世人瞩目，并日益成为人们日常生活和工作中重要且普及的安全验证方式。声纹识别属于生物识别技术的一种，是一项根据语音波形中反映说话人生理和行为特征的语音参数，自动识别说话人身份的技术。与语音识别不同的是，声纹识别利用的是语音信号中的说话人信息，而不考虑语音中的字词意思，它强调说话人的个性;而语音识别的目的是识别出语音信号中的言语内容，并不考虑说话人是谁，它强调共性。声纹识别系统主要包括两部分，即特征检测和模式匹配。特征检测的任务是选取唯一表现说话人身份的有效且稳定可靠的特征，模式匹配的任务是对训练和识别时的特征模式做相似性匹配。 2. SR的历史 60年代，计算机的应用推动了语音识别的发展。 70年代，语音识别领域取得了突破 80年代，语音识别研究进一步走向深入进入90年代，随着多媒体时代的来临，迫切要求语音识别系统从实验室走向实用。我国语音识别研究工作一直紧跟国际水平，国家也很重视，并把大词汇量语音识别的研究列入“863”计划，由中科院声学所、自动化所及北京大学等单位研究开发。 3.语音识别技术语音识别系统的分类方式及依据根据对说话人说话方式的要求，可以分为孤立字（词）语音识别系统，连接字语音识别系统以及连续语音识别系统根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。根据词汇量大小，可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。不同的语音识别系统，虽然具体实现细节有所不同，但所采用的基本技术相似，一个典型语音识别系统的实现过程如图1所示。语音分析表征说话人特点的基本特征这些特征应该具有如下特点：（1）能够有效地区分不同的说话人，但又能在同一说话人的语音发生变化时相对保持稳定。（2）易于从语音信号中提取。（3）不易被模仿。特征提取声纹识别系统中的特征检测即提取语音信号中表征人的基本特征，此特征应能有效地区分不同的说话人，且对同一说话人的变化保持相对稳定。考虑到特征的可量化性、训练样本的数量和系统性能的评价问题，目前的声纹识别系统主要依靠较低层次的声学特征进行识别。说话人特征大体可归为下述几类：谱包络参数语音信息通过滤波器组输出，以合适的速率对滤波器输出抽样，并将它们作为声纹识别特征。基音轮廓、共振峰频率带宽及其轨迹这类特征是基于发声器官如声门、声道和鼻腔的生理结构而提取的参数。特征提取线性预测系数使用线性预测系数是语音信号处理中的一次飞跃，以线性预测导出的各种参数，如线性预测系数、自相关系数、反射系数、对数面积比、线性预测残差及其组合等参数，作为识别特征，可以得到较好的效果。主要原因是线性预测与声道参数模型是相符合的。反映听觉特性的参数模拟人耳对声音频率感知的特性而提出了多种参数，如美倒谱系数、感知线性预测等。此外，人们还通过对不同特征参量的组合来提高实际系统的性能，当各组合参量间相关性不大时，会有较好的效果，因为它们分别反映了语音信号的不同特征。说话人识别的几种方法 1.模板匹配法模板匹配法的要点是：在训练过程中从每个说话人发出的训练语句中提取相应的特征矢量，这些特征矢量能充分描写各个说话人的行为。这些特征矢量称为各说话人的模板。它们可以从单词，数字串或句子中提取。在测试阶段，从说话人发出的语音信号中按同样的处理方法提取测试模板，并且与其相应的参考模板相比较。 2. 概率统计方法语音中说话人信息在短时内较为平稳，通过对稳态特征如基音、声门增益、低阶反射系数的统计分析，可以利用均值、方差等统计量和概率密度函数进行分类判决。其优点是不用对特征参量在时域上进行规整，比较适合文本无关的说话人识别利用子词单元构成的