基于深度循环网络的声纹识别方法的研究.pdfVIP

  • 19
  • 0
  • 约10.53万字
  • 约 62页
  • 2020-09-09 发布于江苏
  • 举报

基于深度循环网络的声纹识别方法的研究.pdf

重庆大学硕士学位论文 中文摘要 摘 要 声纹识别 (Voiceprint Recognition )也被称之为说话人识别 (Speaker Recognition ),是当前热门的一种基于生物特征的身份识别技术之一。说话人的语 音波形能够反映该说话人的生理和行为特征,声纹识别就是根据语音波形中的特 征参数,来识别待测语音所对应的说话者身份。声纹识别可以作为多因素识别的 一种补充,并且声音在取样过程中仅需要麦克风即可,声纹识别的数据采集更加 方便,采集设备造价低廉,而且在只有声音数据的场景下,声纹识别显得尤为重 要。声纹识别是一种经济、可靠、便捷、安全的身份鉴别方式。 声纹识别已经开始应用于各种智能设备,用于用户身份的识别,如使用声纹 实现社交软件的登录,智能音响中的语言助手,智能车载系统中的语音助手等等。 本文通过对声纹识别技术的发展历程和研究现状进行了研究分析,改进了现有声 纹识别的端点检测过程,提出了一种结合了卷积神经网络 (Convolutional Neural Network, CNN )和深度循环网络 (Deep Recurrent Neural Network, DRNN )的声 纹识别方案,称为 CDRNN 。 CDRNN 结合了卷积神经网络和循环神经网络的优势,用于移动终端声纹识别 应用。本文主要研究内容如下: (1)针对处于噪声环境下的语音信号的端点检测问题,提出一种结合了多窗 谱减谱法、能熵比法以及双门限法的改进算法,该算法首先通过多窗谱减法对含 噪信号进行降噪处理,得到较为纯净的有效语音信号,然后再采用能熵比算法进 行语音能量的计算,最后通过双门限法进行后续的端点检测。 (2 )构建了 CNN 网络,利用 CNN 长于处理图像的优势,将语音信号转化为 语谱图进行处理,从语谱图中提取语音信号的个性特征。探究了不同层数 CNN 网 络的识别率。 (3 )构建了 DRNN 网络,将 CNN 网络对语谱图处理后的输出作为DRNN 的 输入完成进一步的时序建模。并探究了每层节点数以及层数对识别率的影响。 (4 )将 CDRNN 方案和其他常用的声纹识别方案进行了对比,实验结果表明 了CDRNN 方案能够获得比目前比较常用的 GMM-UBM 、GMM-DNN 等其他常用 的模型方案更好的识别准确率。 关键词:声纹识别;卷积神经网络;深度循环网络;语谱图 I 重庆大学硕士学位论文 英文摘要 Abstract Voiceprint Recognition, also known as Speaker Recognition, is one of the most popular biometric-based identification technologies. Voiceprint recognition is a technique for identifying the speakers identity of the voice to be tested based on the speech parameters that reflect the physiological and behavioral characteristics of the speaker in the speech waveform. Voiceprint recognition can be used as a supplement to multi-factor recognition, and the sound only needs a microphone during the sampling process.

文档评论(0)

1亿VIP精品文档

相关文档