声纹识别.docVIP

下载本文档

12
0
约6.13千字
约 7页
2017-08-22 发布于河南
举报
版权申诉

声纹识别.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

声纹识别声纹识别，生物识别技术的一种。也称为说话人识别，有两类，即说话人辨认和说话人确认。不同的任务和应用会使用不同的声纹识别技术，如缩小刑侦范围时可能需要辨认技术，而银行交易时则需要确认技术。声纹识别 - 原理声纹生理图所谓声纹(Voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异。每个人的语音声学特征既有相对稳定性，又有变异性，不是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟、伪装，也与环境干扰有关。尽管如此，由于每个人的发音器官都不尽相同，因此在一般情况下，人们仍能区别不同的人的声音或判断是否是同一人的声音。[1] 声纹识别 - 声纹识别及其应用声纹识别的应用有一些缺点，比如同一个人的声音具有易变性，易受身体状况、年龄、情绪等的影响；比如不同的麦克风和信道对识别性能有影响；比如环境噪音对识别有干扰；又比如混合说话人的情形下人的声纹特征不易提取；……等等。尽管如此，与其他生物特征相比，声纹识别的应用有一些特殊的优势：(1)蕴含声纹特征的语音获取方便、自然，声纹提取可在不知不觉中完成，因此使用者的接受程度也高；(2)获取语音的识别成本低廉，使用简单，一个麦克风即可，在使用通讯设备时更无需额外的录音设备；(3)适合远程身份确认，只需要一个麦克风或电话、手机就可以通过网路(通讯网络或互联网络)实现远程登录；(4)声纹辨认和确认的算法复杂度低；(5)配合一些其他措施，如通过语音识别进行内容鉴别等，可以提高准确率；……等等。这些优势使得声纹识别的应用越来越收到系统开发者和用户亲睐，声纹识别的世界市场占有率15.8%，仅次于手指和手的生物特征识别，并有不断上升的趋势。声纹识别 - 声纹识别的分类声纹识别声纹识别(Voiceprint Recognition, VPR)，也称为说话人识别(Speaker Recognition)，有两类，即说话人辨认(Speaker Identification)和说话人确认(Speaker Verification)。前者用以判断某段语音是若干人中的哪一个所说的，是“多选一”问题；而后者用以确认某段语音是否是指定的某个人所说的，是“一对一判别”问题。不同的任务和应用会使用不同的声纹识别技术，如缩小刑侦范围时可能需要辨认技术，而银行交易时则需要确认技术。不管是辨认还是确认，都需要先对说话人的声纹进行建模，这就是所谓的“训练”或“学习”过程。从另一方面，声纹识别有文本相关的(Text-Dependent)和文本无关的(Text-Independent)两种。与文本有关的声纹识别系统要求用户按照规定的内容发音，每个人的声纹模型逐个被精确地建立，而识别时也必须按规定的内容发音，因此可以达到较好的识别效果，但系统需要用户配合，如果用户的发音与规定的内容不符合，则无法正确识别该用户。而与文本无关的识别系统则不规定说话人的发音内容，模型建立相对困难，但用户使用方便，可应用范围较宽。根据特定的任务和应用，两种是有不同的应用范围的。比如，在银行交易时可以使用文本相关的声纹识别，因为用户自己进行交易时是愿意配合的；而在刑侦或侦听应用中则无法使用文本相关的声纹识别，因为你无法要求犯罪嫌疑人或被侦听的人配合。在说话人辨认方面，根据待识别的说话人是否在注册的说话人集合内，说话人辨认可以分为开集(open-set)辨认和闭集(close-set)辨认。前者假定待识别说话人可以在集合外，而后者假定待识别说话人在集合内。显然，开集辨认需要有一个对集外说话人的“拒识问题”，而且闭集辨认的结果要好于开集辨认结果。本质上讲，说话人确认和开集说话人辨认都需要用到拒识技术，为了达到很好的拒识效果，通常需要训练一个假冒者模型或背景模型，以便拒识时有可资比较的对象，阈值容易选定。而建立背景模型的好坏直接影响到拒识甚至声纹识别的性能。一个好的背景模型，往往需要通过预先采集好的若干说话人的数据，通过某种算法去建立。如果技术达到一定的水平，可以把文本相关识别并入文本无关识别，把闭集辨认并入开集辨认，从而提供更为方便的使用方法。比如北京得意音通技术有限公司的“得意”身份证就是文本无关的、开集方式的说话人辨认和确认，“得意”身份证SDK还提供建立背景模型的工具。声纹识别 - 声纹识别的关键声纹识别可以说有两个关键问题，一是特征提取，二是模式匹配(模式识别)。特征提取的任务是提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学或语言特征。与语音识别不同，声纹识别的特征必须是“个性化”特征，而说话人识别的特征