基于声门脉冲自适应时延估计算法.docVIP

下载本文档

8
0
约5.48千字
约 11页
2018-08-29 发布于福建
举报
版权申诉

基于声门脉冲自适应时延估计算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于声门脉冲自适应时延估计算法

基于声门脉冲自适应时延估计算法　　摘要：在研究LMS自适应算法的基础上，提出一种基于声门脉冲的变步长LMS自适应时延估计新方法，并在相关噪声和混响的环境下与互功率谱相位广义互相关法（GCCCSP）、变步长LMS自适应算法进行性能比较。实验结果表明，新方法具有很好的鲁棒性，即使在低信噪比强混响的环境下也能获得有效的时延估计。　　关键词：时延估计；声门脉冲提取；Hilbert包络；削波；自适应　　中图分类号：TP912．3文献标志码：A 　　文章编号：1001－3695(2008)03－0726－03 　　　　传声器阵列说话人定位技术具有广阔的应用前景。例如在无人干预的视频会议中，一旦获得准确的说话人位置，不仅可以控制摄像机对准说话人，还可以结合波束形成技术获得高质量的语音。目前，传声器阵列声源定位方法可以分为三种类型[1]，即基于最大输出功率的可控波束形成、基于高分辨率的谱估计和基于到达时间差（TDOA）。基于最大输出功率的可控波束形成方法的计算复杂，且缺少语音和噪声特性的先验知识，因此不可能应用在说话人定位系统中；基于高分辨率的谱估计方法是针对远场窄带平稳信号的，因此这类方法很难应用于宽带语音信号；基于到达时间差方法的定位精度相对较高，而且可以实时实现，因此被广泛使用。在这一类方法中，时延估计是其关键技术，直接决定了整个定位系统的有效性。在时延估计的方法中最常用的是广义相关法[2]，但这种方法在存在相关噪声或混响的环境下，性能会严重下降。倒谱技术虽然可以降低混响的影响，但由于语音信号的非平稳性使其难以应用在说话人定位系统中[3]。本文提出了一种基于声门脉冲的自适应时延估计算法（GPCLMS），并验证了新方法对噪声和混响具有很好的鲁棒性，适合在说话人定位系统中使用。　　　　1声门脉冲的提取　　　　如图1[4]所示，当气流通过声门时声带的张力刚好使声带发生较低频率的张驰振荡，形成准周期性的空气脉冲(称之为声门脉冲)，这些空气脉冲激励声道便产生浊音[5]。根据研究表明，声门脉冲（glottal pulses）的位置在时间轴上对应于声门闭合的瞬间，而且其相对位置不受背景噪声和混响的影响而变化[6]。　　声门脉冲可以通过线性预测（LP）分析提取[7]。在线性预测分析中，时刻n的语音样值s(n)都用以前的P个语音样值s(n-1),s(n-2),…,s(n-P)通过线性组合来预测。如果(n)表示n时刻的预测样值，那么可表示为　　(n)=-??Pi=1ais(n-i)(1) 　　　　其中：ai为预测系数，且皆为实数。预测值(n)与真值s(n)之间的预测误差表示为　　ek(n)=s(n)-(n)=s(n)+??Pi=1ais(n-i)(2) 　　最佳线性预测系数（LPCs）可以通过一帧10～30 ms的语音在最小均方误差的意义上估计出来。由LPCs定义的预测误差滤波器表示为　　A(z)=1+??Pi=1aiz-i(3) 　　　　语音信号通过预测误差滤波器得到的LP残余信号，用e(n)表示。LP残余信号包含了产生语音的声门脉冲信息。这是因为在声门闭合的瞬间产生的空气脉冲导致了在LP残余信号中相应地出现了较大的误差。　　　　对比图2(b)、3(b)和4(b)可以看出，由于噪声和混响的影响，使LPC残留误差e(n)中的脉冲激励被削弱，但脉冲激励的相对位置没有改变，因此可用来估计时间延时。为了锐化峰值，可以利用LPC残留误差e(n)的包络he(n)代替e(n)[6,8]。　　he(n)=e??2(n)+eh??2(n)(4) 　　　　其中：eh(n)是e(n)的Hilbert变换。为了进一步减少噪声和混响的影响，可以采用削波的方法对he(n)进行处理：　　hp(n)=1he(n)≥C 　　0he(n)＜C(5) 　　其中：削波电平C为he(n)最大值的50％～60％。　　2基于声门脉冲的自适应时延估计算法　　基于声门脉冲的自适应时延估计原理如图5所示。其估计算法如下：　　a)把传声器1和2采集的语音信号x1(n)和x2(n)分别通过相应的预测误差滤波器得到LP残余信号e1(n)和e2(n)。　　b)利用Hilbert变换分别提取e1(n)、e2(n)的Hilbert包络he1(n)和he2(n)。　　c)对he1(n)和he2(n)分别进行削波处理，得到语音帧的声门脉冲hp1(n)和hp2(n)。　　d)使hp1(n)通过一个变步长LMS自适应滤波器，并让滤波器的输出在均方误差最小的意义上逼近于hp2(n)[9]。　　定义n时刻的输入向量：　　X1(n)=[hp1(n-τmax), 　　hp1(n-τmax+1),…,hp1