基于深度学习的双耳语音分离研究.pdfVIP

下载本文档

93
0
约10.15万字
约 72页
2020-08-28 发布于江苏
举报
版权申诉

基于深度学习的双耳语音分离研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

摘要摘要语音分离技术作为语音信号处理系统的前端，对后续语音信号处理性能有重要影响。目前常用语音分离算法在低信噪比、混响环境下的性能受限。本文在计算听觉分析 CASA(Computational auditory scene analysis) 的框架上，提出了两种基于深度学习的双耳语音分离算法：基于改进理想比值掩膜的深度神经网络DNN(Deep Nerual Network)双耳语音分离算法和基于长短时记忆LSTM(Long Short-Term Memory) 的双耳语音分离算法。 (1) 基于改进理想比值掩膜的DNN 双耳语音分离算法。本文采用Gammatone 人耳听觉滤波器，将原始语音预处理过后得到时频单元，对时频单元提取双耳空间特征参数：耳间互相关函数 CCF(Cross Correlation Function) ，耳间时间差 ITD(Interaural Time Difference) 、耳间强度差ILD(Internaural Level Difference) ，作为DNN 的输入。传统的分离算法一般采用理想二值掩膜 IBM(Ideal Binary Mask)来进行语音分离，本文改进了原始应用在语音增强领域的理想比值掩膜IRM(Ideal Ratio Mask) ，将其应用到多说话人分离中，通过方位角进行建模，人的前向设置19 个方位角并将环境噪声作为第20 个方位角，将时频单元中每个声源和噪声的改进 IRM 值作为对应方位角的训练目标。本文采用 SAR(Sources to Artifacts Ratio) 、SDR(Source to Distortion Ratio ）、SIR(Source to Interferences Ratio) 、PESQ(Perceptual Evaluation of Speech Quality)作为评价指标，仿真结果表明此算法优于传统的DUET(Degenerate Unmixing Estimation Technique)算法和基于 IBM 的DNN 双耳语音分离算法，本文算法在低信噪比和混响环境下分离指标参数有明显提升。 (2) 基于LSTM 的双耳语音分离算法。由于语音信号特征参数的时序性，使得循环神经网络相对于 DNN ，更适合对语音信号特征参数进行建模，本文利用可以双向时间编码的双向长短时记忆单元BiLSTM(Bi-directional Long Short-Term Memory) ，提取当前帧以及前后帧时频单元的耳间时间差、耳间强度差以及耳间互相关函数作为输入特征，搭建两层LSTM 单元，最后连接Softmax 层表示20 个方位角中声源的概率，输出最后时刻的值作为当前时频单元的估计浮值掩膜ERM(Estimated Ratio Mask) ，通过均方误差损失函数计算损失训练网络，测试阶段将多帧信号送入到BiLSTM 得到ERM ，进行语音分离。实验结果表明，基于LSTM 的双耳语音分离有效地利用了前后帧的特征信息，相比于基于DNN 的网络在主观评价指标上有较为明显提升，语音质量饱满，分离效果较好。关键词：神经网络，语音分离，计算听觉场景分析 I Abstract Abstract As the front-end of speech signal processing system, speech separation technology has an important impact on the performance of subsequent speech signal processing. At present, the performance of commonly used speech separation algorithms is limited in low SNR and reverberation environments. Based on computa