基于NMF 的语音和音乐信号半盲分离算法 - 深圳大学.PDF

基于NMF 的语音和音乐信号半盲分离算法 - 深圳大学.PDF

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于NMF 的语音和音乐信号半盲分离算法 - 深圳大学

基于 NMF 的语音和音乐信号半盲分离算法 蔡毅 郑能恒 李霞 深圳大学 信息工程学院,深圳 518060 摘 要:语音和音乐信号的分离是基于内容的音频信号检索的关键技术。针对语音与音乐信号 的频谱特性,本文提出基于音乐信号的先验知识的非负矩阵分解(Nonnegative Matrix Factorization ,NMF )算法。在传统的NMF 分离算法基础上,通过对音乐信号的训练获得音乐 的基本矩阵,并引入正交性、短时连续性、稀疏性限制条件,实现语音与音乐信号的有效分离。 实验结果表明,相对于现有算法,本文所提算法可以获得较好的分离结果。 关键词:非负矩阵分解;信号分离;语音;音乐 1.引言 1 基于内容的音频信息检索是当前网络信息检索领域的一个重要研究课题。一段音频流 中往往包含了各种音频成分如语音、音乐或其它背景声音的混叠信号。为了获得对一段复 杂的音频流中各成分的内容的准确描述,首先必须采用信号分离技术从混叠信号中将各个 成分有效分离出来。目前,语音和音乐混叠信号的分离主要是基于基频分析和频谱分解算 法。Klapuri 等人提出了一种基于音乐频谱的谐波特性和平滑特性的迭代算法来检测音乐频 谱中的多个基频并计算出各基频对应的谐波分量[1] 。 Li 通过检测歌曲音频信号的主要基频 [2] (predominant pitch )轮廓,用聚类学习的方法从混叠信号中分离出歌声信号 。 常见的频谱分解算法有非负矩阵分解(NMF )、独立成分分析(ICA )等。非负矩阵分 解首先由 Lee 和 Seung 发表在 Nature 杂志上[3] 。近年来,相关研究人员提出了一系列基于 NMF 的信号分离算法。NMF 的基本原理是将信号分解为基本矩阵和相应的系数矩阵,根 据代价函数来计算各个信源成分所对应的基本矩阵和系数矩阵,从而实现信号的分离。根 据所依据信号先验知识的多少,NMF 算法可以大致分 3 类:1)盲信号模型,即各信号成 分的基本矩阵和系数矩阵未知,只能通过分解和迭代估计得到;2 )监督模型,即混叠信号 中每个信号成分的基本矩阵都预先训练得到,只需要计算对应的系数矩阵;3 )半盲模型, 只给定一部分信号成分的基本矩阵,需要估计其它信号成分的基本矩阵和所有信号成分对 应的系数矩阵。代价函数的选取主要包括 2 类:1)分离前后信号的相似度,如欧式距离, Kullback-Leibler 散度(K LD)等;以及 2 )根据所处理信号的特性而加入的一些限制条件。 比较常见的限制条件有:稀疏性(Sparsity)、短时连续性(Temporal Continuity)、窗-不相交 正交性(Windowed-Disjoint Orthogonality ,WDO )等。Patrik 针对一般信号频谱的特点提 出了基于频谱的稀疏性限制条件的NMF [4] 。 Virtanen 等在 NMF 中加上短时连续性和稀疏 性限制条件实现了混合音乐信号的分离[5] 。Virtanen 等利用基频分析结合 NMF 从语音与音 乐混叠信号中分离出语音信号[6] 。Jeong 等人提出了基于半盲的 NMF 加上 WDO 限制条件 实现了语音和非平稳噪声混叠信号中噪声的抑制[7] 。 资助项目:中国自然科学基金60902069); 广东省自然科学基金(9151806001000025) 联系作者:郑能恒,E-mail :nhzheng@szu.edu.cn 本文在这些工作的基础上,针对语音和音乐的混叠信号,提出一种基于 NMF 的半盲 信号分离算法。在本算法中,假定在一段音频流中背景音乐大致不变(例如,是同一首曲 子),并且该段音频流中存在纯音乐片段,在音频分割的基础上对纯音乐片段进行NMF 分 解获得关于音乐的基本矩阵的先验知识。在混叠信号的 NMF 分解中根据这个先验知识, 并加入 WDO 限制条件以及对系数矩阵加上短时连续性和稀疏性限制,实现对语音和音乐 信号的有效分离。 2 .半盲不相交 NMF 算法 2.1 NMF 的信号盲分离[3]

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档