面向智能语音控制场景的短语音说话人确认技术综述.docVIP

下载本文档

7
0
约1.62万字
约 24页
2021-03-20 发布于未知
举报
版权申诉

面向智能语音控制场景的短语音说话人确认技术综述.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

面向智能语音控制场景的短语音说话人确认技术综述导语：?基于语音的说话人认证技术（声纹识别技术）属于生物特征识别研究范畴，在互联网/物联网时代具有重要的应用价值。基于语音的说话人认证技术（声纹识别技术）属于生物特征识别研究范畴，在互联网/物联网时代具有重要的应用价值。目前，限定条件下的说话人身份认证技术已较为成熟，在智能手机、银行服务、门禁控制和智能客服等场景获得了广泛的应用。然而，作为智能控制场景中实现基于语音的自然人机交互的关键技术，短语音说话人身份认证技术目前尚不能满足应用需求。本文将重点对短语音说话人确认技术的研究进行技术综述。首先，概述说话人确认技术的基本概念和主流技术路线；其次，分析短语音说话人确认技术面临的挑战；然后，对基于深度学习的说话人确认技术进行综述；最后，展望了短语音说话人确认技术的发展趋势和应用前景。 1 引言人类之所以能够”闻其声而知其人”，是因为每个说话人都有不同的说话方式和用词习惯，以及略有差异的发声器官生理结构，这两点导致不同说话人在声音上各具特点，具有不同声纹信息。基于语音的说话人确认是利用计算机分析和提取语音中蕴含的说话人信息来自动进行说话人身份认证的技术，是自然人机交互的重要技术之一，也是智能机器人的关键技术，具有重要的研究价值。说话人确认技术目前广泛应用于各类具有身份认证需求的领域，例如：在智能家居领域，说话人确认技术能帮助智能设备确认说话人的身份，使得智能系统能对于不同说话人提供定制化服务和内容；在金融领域，说话人确认技术可以用于基于网络交易的远程身份认证，进而提高金融账户的安全性，并降低基于互联网的金融犯罪成功率；在公安司法领域，可以用于电信诈骗犯的身份侦查，从而帮助公安有效遏制并打击犯罪。具体而言，公安人员可以利用说话人确认技术，先从电话录音中截取目标说话人的语音数据，再匹配说话人数据库，最终锁定犯罪嫌疑人。使用先进的说话人确认技术可以降低办案成本，提高破案率。说话人确认技术的研究开始于20世纪30年代，早期研究人员的工作主要集中在人耳听辨，模板匹配等方向；随着统计学和计算机科学的发展，说话人确认的工作开始转向语音特征提取和模式匹配等方法研究；近年随着人工智能的崛起和计算能力的提升，基于机器学习和深度学习的说话人确认技术逐渐成为主流。本文将首先介绍说话人确认的基本概念，其次从特征提取和短语音建模两个角度，对智能语音控制场景下的短语音说话人确认技术的发展历程进行简要回顾，然后分析几类运用深度学习的短语音说话人确认技术，最后对发展趋势做出总结与展望。 2 说话人确认技术综述说话人确认（SpeakerVerification）技术，如图1所示，是确定待识别的语音是否来自其所宣称的目标说话人[1][2]，是“一对一”的判决问题。具体而言，说话人确认任务可以分为训练，注册，验证三个阶段。在训练阶段：利用大量的数据训练说话人通用模型；注册阶段：采集注册说话人的少量语音数据并通过算法获得注册说话人的声纹模型；验证阶段：输入声称为目标说话人的测试语音并计算对应的说话人模型，再与已经注册的目标说话人模型进行匹配，最终判定其身份是否为已注册的目标说话人。图1说话人确认概念示意图 2.1文本相关和文本无关根据说话人确认技术对语音的文本信息是否予以限制，可以将说话人确认技术分为文本无关的（text-independent）和文本相关的（text-dependent）。文本无关的说话人确认技术：训练模型时不限定所采用语音数据的文本信息，且训练语音和测试语音的文本内容不要求一致，即说话人可以随意说任意语句。文本相关的说话人确认技术：模型训练时所采用语音数据的文本内容预先固定在某一个特定的范围内，并要求训练语音和测试语音的文本内容保持一致。 2.2说话人确认技术性能评测衡量说话人确认技术性能的两个基本指标是：错误接受率（FalseAcceptationRate，FAR）和错误拒绝率（FalseRejectionRate，FRR），其定义如下：其中，FAR表示将非目标说话人的语音经说话人确认系统，其相似度得分大于给定的阈值，从而被判断为目标说话人的错误率。FAR的值越小，表示系统将非目标说话人错误识别成目标说话人的概率越低，系统的性能就越好。当处于需要实现快速访问，对于准确度的要求不高的日常生活中，说话人确认系统可以设定稍高的FAR值。另一方面，FRR表示将目标说话人语音经说话人确认系统的得分低于设置的阈值，被系统判断为非目标说话人的错误率。可以看出，FRR的值越小，系统将目标说话人误识为非目标说话人的概率越低，系统的性能越好；在需要高安全性的商业场景中，说话人确认系统可设定稍高的FRR值，以牺