基于非负矩阵分解和长短时记忆网络的单通道语音分离.pdf

基于非负矩阵分解和长短时记忆网络的单通道语音分离.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第19卷第12期2019年4月科学技术与工程Vol.19No.12Apr.2019

1671—1815(2019)012-0206-05ScienceTechnologyandEngineeringⓒ2019Sci.Tech.Engrg.

引用格式:崔建峰,邓泽平,申飞,等.基于非负矩阵分解和长短时记忆网络的单通道语音分离[J].科学技术与工程,2019,19(12):

206-210

CuiJianfeng,DengZeping,ShenFeietal.Singlechannelspeechseparationbasedonnon-negativematrixfactorizationandlongshort-term

memorynetwork[J].ScienceTechnologyandEngineering,2019,19(12):206-210

基于非负矩阵分解和长短时记忆网络的

单通道语音分离

崔建峰邓泽平申飞史文武

(中北大学电子测试技术重点实验室,太原030051)

摘要为了解决语音分离中非负矩阵分解(non-negativematrixfactorization,NMF)、深度神经网络(deepneuralnetwork,

DNN)等算法没有考虑语音时序相关性的问题。结合NMF和长短时记忆网络(longshort-termmemory,LSTM)算法提出NMF-

LSTM单通道语音分离算法:将语音信号的幅度谱作为模型的输入特征,通过训练NMF和LSTM模型获得目标语音的基矩阵

和系数矩阵,并对其结果进行语音重构最终实现语音分离。实验结果表明:相比于未考虑语音时间连续性的算法,使用NMF-

LSTM算法分离语音的客观语音质量评估值(perceptualevaluationofspeechquality,PESQ)有明显提升,其最大值超过3.1,获

得良好的分离效果。

关键词语音分离幅度谱非负矩阵分解深度学习长短时记忆网络

中图法分类号TP391.42;文献标志码A

语音是人与人之间交流最自然、便捷的方式,人络模型(DNN)相结合,提出NMF-DNN算法实现带

们能够轻易地从噪声中分辨出自己感兴趣的语音,噪语音的语音分离;文献[10]对NMF-DNN语音分

但是,使机器从不同语音中分辨出感兴趣的语音信离方法进行优化,提出联合卷积非负矩阵分解(con-

号却是极为困难的。随着人工智能的快速发展,神volutivenon-negativematrixfactorization,CNMF)和深

经网络、机器学习等相关知识被应用于语音分离领度神经网络(DNN)方法实现语音分离。NMF算法

域,使语音分离技术得到很大提高。语音分离在现结合“部分构成整体”的思维方式,能够提取待分解

实中有很多应用:语音识别系统处理带噪声的语音矩阵的潜在模式,在语音分离过程中通过语音信号

信号时,识别效果会有所下降,在语音信号的处理阶和噪声信号潜在模式的差异实现语音分离。DNN

段使用语音分离技术可以提升语音识别系统的性算法通过大量的带噪声的语音和纯净语音对网络模

能;有听力障碍的人使用助听器时,在背景噪声的干型进行训练,获得输入特征和目标数据的映射关系,

扰下会增加他们获得目标语音的困难,在助听器中从而实现语音分离。

增加语音分离功能可以很好地提高他们对混合语音上述方法均实现从带噪声(或背景声)的混合

信号的理解能力。

语音中分离目标语音的功能,并且达到不错的效果。

语音分离的目标是在被干扰的语音中有效区分

文档评论(0)

Lohas_king_ + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档