- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于声门脉冲自适应时延估计算法
基于声门脉冲自适应时延估计算法
摘要:在研究LMS自适应算法的基础上,提出一种基于声门脉冲的变步长LMS自适应时延估计新方法,并在相关噪声和混响的环境下与互功率谱相位广义互相关法(GCCCSP)、变步长LMS自适应算法进行性能比较。实验结果表明,新方法具有很好的鲁棒性,即使在低信噪比强混响的环境下也能获得有效的时延估计。
关键词:时延估计;声门脉冲提取;Hilbert包络;削波;自适应
中图分类号:TP912.3文献标志码:A
文章编号:1001-3695(2008)03-0726-03
传声器阵列说话人定位技术具有广阔的应用前景。例如在无人干预的视频会议中,一旦获得准确的说话人位置,不仅可以控制摄像机对准说话人,还可以结合波束形成技术获得高质量的语音。目前,传声器阵列声源定位方法可以分为三种类型[1],即基于最大输出功率的可控波束形成、基于高分辨率的谱估计和基于到达时间差(TDOA)。基于最大输出功率的可控波束形成方法的计算复杂,且缺少语音和噪声特性的先验知识,因此不可能应用在说话人定位系统中;基于高分辨率的谱估计方法是针对远场窄带平稳信号的,因此这类方法很难应用于宽带语音信号;基于到达时间差方法的定位精度相对较高,而且可以实时实现,因此被广泛使用。在这一类方法中,时延估计是其关键技术,直接决定了整个定位系统的有效性。在时延估计的方法中最常用的是广义相关法[2],但这种方法在存在相关噪声或混响的环境下,性能会严重下降。倒谱技术虽然可以降低混响的影响,但由于语音信号的非平稳性使其难以应用在说话人定位系统中[3]。本文提出了一种基于声门脉冲的自适应时延估计算法(GPCLMS),并验证了新方法对噪声和混响具有很好的鲁棒性,适合在说话人定位系统中使用。
1声门脉冲的提取
如图1[4]所示,当气流通过声门时声带的张力刚好使声带发生较低频率的张驰振荡,形成准周期性的空气脉冲(称之为声门脉冲),这些空气脉冲激励声道便产生浊音[5]。根据研究表明,声门脉冲(glottal pulses)的位置在时间轴上对应于声门闭合的瞬间,而且其相对位置不受背景噪声和混响的影响而变化[6]。
声门脉冲可以通过线性预测 (LP)分析提取[7]。在线性预测分析中,时刻n的语音样值s(n)都用以前的P个语音样值s(n-1),s(n-2),…,s(n-P)通过线性组合来预测。如果(n)表示n时刻的预测样值,那么可表示为
(n)=-??Pi=1ais(n-i)(1)
其中:ai为预测系数,且皆为实数。预测值(n)与真值s(n)之间的预测误差表示为
ek(n)=s(n)-(n)=s(n)+??Pi=1ais(n-i)(2)
最佳线性预测系数(LPCs)可以通过一帧10~30 ms的语音在最小均方误差的意义上估计出来。由LPCs定义的预测误差滤波器表示为
A(z)=1+??Pi=1aiz-i(3)
语音信号通过预测误差滤波器得到的LP残余信号,用e(n)表示。LP残余信号包含了产生语音的声门脉冲信息。这是因为在声门闭合的瞬间产生的空气脉冲导致了在LP残余信号中相应地出现了较大的误差。
对比图2(b)、3(b)和4(b)可以看出,由于噪声和混响的影响,使LPC残留误差e(n)中的脉冲激励被削弱,但脉冲激励的相对位置没有改变,因此可用来估计时间延时。为了锐化峰值,可以利用LPC残留误差e(n)的包络he(n)代替e(n)[6,8]。
he(n)=e??2(n)+eh??2(n)(4)
其中:eh(n)是e(n)的Hilbert变换。为了进一步减少噪声和混响的影响,可以采用削波的方法对he(n)进行处理:
hp(n)=1he(n)≥C
0he(n)<C(5)
其中:削波电平C为he(n)最大值的50%~60%。
2基于声门脉冲的自适应时延估计算法
基于声门脉冲的自适应时延估计原理如图5所示。其估计算法如下:
a)把传声器1和2采集的语音信号x1(n)和x2(n)分别通过相应的预测误差滤波器得到LP残余信号e1(n)和e2(n)。
b)利用Hilbert变换分别提取e1(n)、e2(n)的Hilbert包络he1(n)和he2(n)。
c)对he1(n)和he2(n)分别进行削波处理,得到语音帧的声门脉冲hp1(n)和hp2(n)。
d)使hp1(n)通过一个变步长LMS自适应滤波器,并让滤波器的输出在均方误差最小的意义上逼近于hp2(n)[9]。
定义n时刻的输入向量:
X1(n)=[hp1(n-τmax),
hp1(n-τmax+1),…,hp1
文档评论(0)