迭代维纳滤波用于含有竞争话者的混合语音信号分离.pdfVIP

迭代维纳滤波用于含有竞争话者的混合语音信号分离.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信号处理 迭代维纳滤波用于含有竞争话者的混合语音信号分离+ 余凯戴明扬徐柏龄方元余崇智 (南京人学声学fiJf究所近代声学国家重点实验室南京210093) 【摘要】,奉SCt,fi垒r双衍筒接收时,含胄竞争话者的目标语音提取问题.其中有两个关键凶素:一是利 用白适心士相关小断渊整维纳滤波器的参数以适应声学环境的变化;另一个是利用人工神经网络判别器挖制 滤波器的迭代收敛.实验初步表叫该系统能在目标语音被竞争语音或平稳噪声干扰的情况下能较好地工作. 关键词:选代维纳滤波器去相关人工神经网络语音信号分离 、 人类能将滓意力集中于椠一感兴趣的人的语音而在某种程度上忽略干扰的语音或噪声.这称为“鸡尾酒 会放心”.Je中f『阿个关键I★|索:一是守问因素,两耳接收信号的差异形成听觉上的空间适应性;二是听觉神 绛l州索,人肭能从接收到的混合信号中分辨语音的话者特征.并对感*趣的人的声音进行加强.Cherry开刨 J’返方面的研究….有的学者报掘空问特性,利用话筒阵列形成强指向性,当目标话者与干扰源的相对位置 较为集中或足噪声:i匾川处存在的场合就不适用,”I.很多方案都基于两个假设口l:干扰信号是平稳的且与目 标竹,一i相关.这咎1|!{设都与实际一;符,在含有竞争语音时更不适用.大部分方法未涉及听觉神经因素,即 对衍肯特征的把妊.国外柯学者用神经列络来解决语音分离应用中迭代维纳滤波器的收敛问题…,但其对于 拦用到的卒问特性做r事先假议.来考虑音源移动等导致的空问传递函数的不确定性. 二、基本框架 我们考虑用J埘H话筒作为接收,系统工作的前提是两路接收的信号干扰比存在差异.我们采用迭代的维 纳滤波器米消除土通道中的十扰信号.在迭代维纳滤波器中,我们引入了目标信号的空间位置信息,并且是 时蹙的.然后我们充分的考虑枉“鸡尾酒会效应”中人集中注意力于目标语音的听觉行为过程:一、通过自 适心的士相关算法Int,删节滤波器的时变参数,不断跟踪信号通路随时间的变化,以模拟人在专注听音时自 动进行调节.使听觉系统适应听音空问声学环境变化的生理过程:二、用先验目标语音的话者特征来0ll练人 T神经叫络.然后用十控制迭代滤波过程的终止,以模仿人的大脑神经系统利用话者的特征.集中注意力进 行语爵选掸的过程.基奉的框图如下所示: 图1语音分离系统框图 三、 时变迭代维纳滤波器 ‘此项甘系国家自然科学基金资助,批准 信号处理 我们将脚一(a)所求的双话筒模型做进一步的等效变换。得到凹一(b)所示的模型,从面使得表征声学环 境的传递函数从2阶方阼变为只禽两路传递函数的向量,以便于求解。由简化模型樽到迭代维纳滤波器.由 十声学环境的小确定件.传递函数A和B是时变的. (a) (b) 图2双话筒接收模型 Je中St=X J·Hl|Sz=x2·H22。A=H“/H…B=HzI/H”.相应的时变迭代滤波器为 扩,如):【 !:!型型 】“ (1) A 川。’0)+口.【l/I0,纠r一,0) — NI n¨tI) 一i,J ¨中: . Sl 0)=Sl0)H¨(讲)i=毋』,z… (2) 一∞,,)表卅÷t时划滤波器一∞)的估计值-厶0)表示参考信号的助宰谱-乞.∞)是滤波器输出的功牢潜· 滤波足分别对每一帧操作的a向口.是一个区段型新一次.每一区段的长度要联系到目标语音的发音欧度,通 常约为2-3秒(约150—200帧).在每

文档评论(0)

baihualong001 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档