- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
说话人识别总结
说话人识别总结
DOI:10.16661/j.cnki.1672-3791.2017.25.241
摘 要:生物识别,是通过生物信息来识别人身份的技术,说话人识别是一种通过人的声音来识别人身份的技术。说话人识别是生物识别领域的重要研究课题之一。本文首先介绍说话人识别的背景和研究意义;其次介绍目前在说话人特征提取方面所采用的方法;再次介绍说话人识别方面所采用的方法研究;最后分析说话人识别的研究困难和未来发展趋势。
关键词:生物识别 说话人识别 特征提取
中图分类号:TP391 文献标识码:A 文章编号:1672-3791(2017)09(a)-0241-03
Abstract: Speaker recognition is one of the important research topics in the field of biometrics, which is a way of recognizing human identity through the voice of the people. Firstly, it introduces the background and significance of speaker recognition. Secondly, it introduces the present research situation of feature extraction and speaker recognition. Finally, it analyzes the research difficulties and future development trend of speaker recognition.
Key Words: Biological Recognition; Speaker Recognition; Feature Extraction
生物特征识别技术是一种采用人的生理或行为进行识别身份的技术。基于生物特征识别技术的身份认证是社会高度信息化和经济全球化的需求,是政府和商业领域必不可少的重要技术[1]。目前常见的生物识别技术有虹膜识别、指纹识别、掌纹识别、步态识别、说话人识别等。说话人识别作为生物识别中的一种,目前也引起了学者的广泛关注。说话人识别(Speaker Recognition)又称话者识别或声纹识别(Voiceprint Recognition),是由计算机利用语音波形中所包含的反映特定说话人生理和行为特征的语音特征参数来自动确定或鉴别说话人身份的技术[2]。说话人识别的根本依据是:每个人都有自己独特的声道和发音特征,使得自己的话声是唯一的。对说话人识别的研究源于20世纪30、40年代,近些年该课题引起了生物识别研究者的广泛关注。目前,随着科学的发展,学者的青睐,已经取得了一系列研究成果。在国内,通过中国知网搜索说话人识别,从2000年至今,相关文献2553篇。目前说话人识别可以应用在密码锁[3]、司法鉴定[4]等中。
1 说话人识别过程
通过对前人工作的总结,说话人识别的过程包含语音信息的预处理、特征提取与现有语音库进行比对最终识别出说话人,具体流程见图1所示。
2 说话人识别综述
本文从预处理、特征提取和说话人模型3个方面对说话人识别算法进行分析。
2.1 预处理
说话人语音预处理是说话人识别系统的重要环节,预处理包括预加重、端点检测、分帧加窗处理以及对带有噪声的说话人语音的语音增强处理[5]。除了常规的预处理之外,卷积神经网络可以应用在说话人语音信号的预处理中,例如中,胡青等[6]采用卷积神经网络的卷积和降采样两种操作对语音信号进行预处理。
2.2 特征提取
2.2.1 MFCC(Mel频率倒谱系数,Mel Frequeucy Cepstrum Coefficient)
Mel频率倒谱系数是说话人特征提取中最长用的系数。例如,文献[7-9]在特征提取方面均采用MFCC提取说话人特征。但MFCC容易受噪声的影响,噪声环境下的识别率较低。
2.2.2 HHT(希尔波特黄变换Hilbert?CHuang Transform)倒谱系数
文献[10]中采用HHT倒谱系数来刻画动态语音特征,该方法虽然识别精度提高,但是却以牺牲识别时间为代价。
2.2.3 DNN(深度神经网络,Deep Neural Network)
文献[11]中为了提取说话人语音信息,提出了一种基于深度神经网络的说话人识别方法,该方法能够解决语音信号这种弱信息极易受噪声等的影响的问题。通过在RSR2015数据库数据上实验,实验结果表明该方法在特征提取方面,优于MFCC
您可能关注的文档
最近下载
- 2022小学语文新课标测试题库及答案.pdf VIP
- 初中生积极心理品质培育策略与实践研究.docx VIP
- 投标服务承诺书(20篇).docx VIP
- 七年级英语第一次月考卷(考试版A4)【测试范围:沪教版五四学制2024 Starter~Unit 1】(上海专用).docx VIP
- 李白按年龄顺序写的诗.docx VIP
- 2025年四川省高考化学试卷真题(含答案解析).docx
- 高频精选:京东快递员ai面试题及答案.doc VIP
- 高频精选:京东快递员ai面试题及答案大全.doc VIP
- 吉林省中药软片炮制规范.pptx VIP
- 名著阅读《湘行散记》七年级语文上册部编版(共9页).docx VIP
文档评论(0)