- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
背景音乐自动分离系统设计与实现.doc
背景音乐自动分离系统设计与实现
摘 要: 为了解决广播中背景音乐的提取、分离和鲁棒识别,考虑到广播语音中背景音乐的类型稳定性和说话人的不确定性,提出一种说话人无关背景音乐类型相关的语音和背景音乐分离算法,为了更好地分离音乐背景与语音信号,设计并实现了一个级联系统,即音乐背景下的语音活动检测系统加语音和背景音乐分离系统。针对实际的广播语料,采用一种全监督的方法提取背景音乐,实验数据表明,该系统在一定程度上能够提升背景音乐和语音的识别率。
中国 8/vie
关键词: 音频信号分离; 鲁棒语音识别; 非负矩阵分解; 语音活动检测
中图分类号: TN911.7?34, TM417 文献标识码: A : 1004?373X(2017)05?0134?05
Abstract: To solve the problems of background music extraction, seperation and robust recognition on the radio, a voice and background music seperation algorithm independent of speaker and relevant usic types is proposed accor?ding to the types stability of the background music and speakers′ uncertainty in broadcast voice. In order to better seperate the background music and voice signal, a cascade system plemented, usic separation system in the music background. Aiming at the practical broadcast corpus, a method usic background. The experimental data sho can improve the recognition ratio of background music and speech to a certain extent.
Keyatrix factorization; voice activity detection
随着科技的发展,背景音乐被应用到越来越多的场景当中,人们希望背景音乐识别可以在任何复杂场景中都可以发挥作用,所以如何消除背景音?芬酝獾母扇哦员尘耙衾质侗鹣低车挠跋炀统闪艘桓龊苤匾?的课题[1]。基于此,本文要实现的目标即为去除广播语料中的语音信号,减小其对背景音乐识别系统的影响。
1 基于非负矩阵分解的语音和背景音乐分离系统
1.1 音乐类型相关说话人无关的语音和背景音乐分离系统
根据处理的背景音乐所具有的特点,给出了一种基于NMF的音乐类型相关说话人无关的语音和背景音乐分离系统,即本系统是一个半监督算法[2]。该系统的创新点在于,相对于已有的语音和背景音乐分离算法,本算法不仅考虑了语音的稀疏处理,也考虑了背景音乐的暂时连续性。该系统的结构框图如图1所示。
训练阶段,使用相应音乐类型的纯净信号训练得到音乐的基本矢量[F的待分解矩阵[3]。为了更好地利用已有的先验信息从而得到更好的分离效果,本系统考虑了语音的稀疏性和背景音乐的暂时连续性,并把它们作为先验信息加入到NMF的分解过程中。分解之后得到了语音的基本矢量和其相对应的权重矩阵[F的秩,语音和音乐基本矢量的个数之后,随机的从训练结果的矩阵中选取和音乐基本矢量相同个数的不同帧的幅度谱,组成音乐的基本矢量。虽然随机选择可能会给分离性能也带来一定的随机性,但幅度谱仍然可以保留该流派音乐的一些特征。
1.3 语音的稀疏性和背景音乐的暂时连续性
式中[?]为[α]的0范式。在实际应用中由于0范式的优化问题是一个非凸问题,一般将0范式的优化问题转化为1范式或2范式,而2范式的优化由于算法简便更是经常被采用,1范式的优化问题则发展出了压缩感知算法[4]。
对于语音信号来说,大部分情况下也可以将其幅度谱做稀疏化[5]表示,即一帧信号的幅度谱[V]可以用式(2)的方法稀疏表示:
在系统提出的算法中,语音的稀疏性是通过对语音的基本矩阵对应的权重矩阵增加稀疏性来实现的,通过在优化目标函数中对稀疏性增加惩罚因子达到在优化过程中保证语音权重矩阵的稀疏性[6]。
原创力文档


文档评论(0)