基于时频稀疏性的欠定无回声语音盲分离-blind separation of underdetermined echo-free speech based on time-frequency sparsity.docxVIP

下载本文档

5
0
约7.18万字
约 86页
2018-05-20 发布于上海
举报
版权申诉

基于时频稀疏性的欠定无回声语音盲分离-blind separation of underdetermined echo-free speech based on time-frequency sparsity.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于时频稀疏性的欠定无回声语音盲分离-blind separation of underdetermined echo-free speech based on time-frequency sparsity

摘要语音盲分离源于对“鸡尾酒会效应”的研究，其目的在于从多个语音源信号混合成的若干个观测信号中分离出各个原始的源信号，以模拟人类听觉系统的能力，是机器听觉、语音识别、以及语音增强领域广泛关注的问题。传统的基于独立成分分析的语音盲分离方法只能解决混合信号数量不少于源信号数量的过定与确定问题。而混合信号数量少于源信号数量的欠定问题在现实中普遍存在，现有的大部分欠定盲分离算法针对的是不考虑源信号到各个传感器相对传播时延的瞬时混合情形，本文研究更符合实际语音混合过程的无回声混合模型下的欠定语音盲分离。欠定语音盲分离问题的解决需要引入源信号的先验知识，以作为原始问题的约束，从而使得欠定问题向确定问题转化。本文设计了一种基于语音源信号的时频稀疏性先验模型的欠定无回声语音盲分离算法。主要研究内容包括以下几个方面：1.研究了基于时频稀疏性的欠定无回声语音盲分离框架，在此框架下讨论了作为本文基本假设的语音信号的时频稀疏性，并结合稀疏重建理论分析了欠定条件下混合语音的可分离性。2.具体算法的分析与设计：本文算法分为两个阶段，第一阶段为混合参数估计，本文通过概率论的分析得出当源信号数量较多时，由时频稀疏性并不能导出时频非交叠性，而每个源信号在时频面内总存在单源活跃局部时频区域的假设更为合理。因此本文在基于单源活跃区域检测的AD-TIFROM和AD-TIFCORR方法的基础上进行改进，克服了其鲁棒性不强，且只能估计整数采样间隔时延的缺陷。第二阶段为在已知混合参数的条件下进行源信号的估计，针对时频二值遮罩方法本身假设不合理的缺陷，本文采用由时频稀疏性导出的稀疏重建方法，并将ADM-BP算法用于稀疏重建，设计了基于ADM-BP的源信号估计方法，相对于基于传统稀疏重建算法的源信号估计方法具有效率高，鲁棒性强的优势。3.仿真实验设计：首先在不同时延条件下测试混合参数估计方法性能；然后在已知真实混合参数条件下，基于ImageTechnique的仿真技术，分别使用全方向性麦克风阵列和混合型麦克风阵列作为传感器，对源信号估计方法进行测试；最后，由于通过分析得出本文方法更适用于混合型麦克风阵列，本文采用混合型麦克风阵列作为传感器，测试本文的欠定无回声语音盲分离算法。关键词:欠定语音盲分离;无回声混合;时频稀疏性;单源活跃;稀疏重建第i页ABSTRACTToemulatethesophisticationofthehumanauditorysystem,blindspeechseparation,whichstemsfromtheresearchofthe“CocktailPartyEffects”andaimedatseparatingoriginalspeechsourcesignalsfromtheobservedmixtures,hasbeenanextensivelyfo-cusedproblemincomputeraudition,speechrecognitionandspeechenhancement.Traditionalblindspeechseparationmethodsarebasedonindependentcomponentanalysis,whichcanonlysolvetheover-determinedandeven-determinedproblem.How-ever,theunder-determinedcaseisactuallyubiquitousinpractice.Mostofthecurrentunderdeterminedblindspeechseparationmethodsfocusontheinstantaneousmodel.Inthisthesis,wefocusontheanechoicmodelwhichismorepractical.Tosolvetheunderde-terminedblindspeechseparationproblem,thepriorinformationofthespeechisneededtoconverttheunderdeterminedproblemintotheevendeterminedproblem.Inthisthesis,anunderdeterminedblindspeechseparationmethodbasedontime-frequencysparsityofspeechhasbeendesigned.Themaincontentsinthisthesisareasfollow:Studytheframeworkofunderdeterminedblindanechoicspeechseparationbasedontime-frequencys