语音与唇动的多层次融合.docxVIP

下载本文档

0
0
约5.96千字
约 5页
2023-10-07 发布于广东
举报
版权申诉

语音与唇动的多层次融合.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

语音与唇动的多层次融合 1 参数级抗噪方法说话是声音识别研究领域的亮点之一。除了语音信号中包含意义信息外，它还包含大量说话人的个性信息。因此，根据语音信号中说话人的个性特征，仅通过电话、网络广播、广播等传输的声音来区分和确定说话人的特定身份。语音数据处理研究领域的自动语言识别是一种利用计算机根据说话人的声音识别说话人身份的技术。影响说话人识别系统性能的一个重要因素是训练与测试环境的失配,引起失配的主要原因之一是环境噪声.目前较有效的提高说话人识别系统的环境噪声鲁棒性的方法有多种,总的来说可以归纳为从数据、特征参数以及模型三个层面着手.从数据层面着手是指尽可能消除数据即语音信号中的噪声,如处理宽带噪声的谱减法.从特征参数层面着手是指提高语音特征的噪声鲁棒性,如动态参数就是一种常用的参数级抗噪方法,通过静态参数的时域差分得到的动态参数可以在一定程度上削弱平稳噪声的影响.从模型层面着手的主要方法有自适应模型修正和并行模型联合(Parallel Model Combination,PMC)等. 上述三个层面的方法都是从语音单模态的角度出发,实际上,人们对语音的感知是多模态的,著名的McGurk效应就说明了人类对语音的感知会同时受到听视觉的影响.进一步通过语音发声时序关系的研究发现,人类说话时音频流和视频流之间存在着异步关系,听到声音的时间基本上要比嘴形开始变化的时间平均晚大约120ms.所以,建立能反映声音和唇动非同步关系的音视频双模态联合模型,将语音与视觉双模态有效地融合起来对于说话人识别鲁棒性的研究具有重要的意义. 由于隐马尔可夫模型(Hidden Markov Model,HMM)是当前语音识别的主流技术,目前为音视频双模态联合建模时多采用基于HMM的方式.Luettin等人对音视频时序关系进行分析,并利用多流HMM在一定程度上对听视觉之间的相关性和非同步性加以描述,然而对听视觉非同步关联关系的建模停留在音素级,研究实验证明,由于协同发音现象的普遍存在使得听视觉间的非同步关联已经超过了音素边界.另外一种常用的乘积HMM带来了状态空间过大、计算量增加等问题.Stephen等人利用耦合HMM在语音识别中进行了实验,不同信噪比下均达到不错的效果.但是,我们注意到,基于HMM的方式对于表述音视频双模态融合这样复杂的问题有致命的弱点,这主要表现在:HMM模型的扩展性较差,模型结构改变时,相关算法也必须随之改变;并且,HMM模型缺乏可解释性,难以直接对音视频关联关系进行分析. 所以,本文首先利用动态贝叶斯网络(Dynamic Bayesian Network,DBN)建立音视频联合模型,因DBN具有可扩展性和解释性,适于对特征之间关联关系进行描述.其次,人类发音机理的研究揭示了音视频之间非同步关联的深层次成因,即表面上观察到的语音与唇动特征的非同步本质上是多个发音特征在发音过程中的非同步,因此,我们建立了基于多个发音特征流的非同步关联的音视频联合模型,把多个发音特征作为多个隐含的状态变量,输出的语音、唇动特征观察值概率由各个发音特征状态变量共同作用;允许各个发音特征流之间存在非同步的关联,并对非同步的程度加以约束.音视频双模态数据库上的实验表明了该模型能提高说话人识别系统的噪声鲁棒性. 2 基于非同步发音特征流的视听联合模型 2.1 连续音图联合条件动态贝叶斯网络能以图的方式直观地反映变量间的概率依存关系及其随时间变化的规律,非常适合对时间序列进行建模.它还适合于对音视频这种同时具有特征相关性和时序相关性的复杂特征进行联合建模,因为其不但能够对变量所对应的不同特征之间的依存关系进行概率建模,而且对特征之间的时序关系也能很好地加以反映,并且,其拓扑结构具有精确及易于理解的概率语义,通过对其进行分析可以加深对不同变量间关联关系的理解,因此适于对音视频间的关联关系进行分析建模.本文使用图1所示的动态贝叶斯网络结构为音视频特征建立基准模型. 图1所示为连续的某两帧,由此得到联合条件概率分布如下: p(Λt|Λt-1)=p(xt|qt)p(yt|qt)p(qt|φt,wt)p(qinct|qt)·p(φt|φt-1,qinct-1,winct-1)·p(winct|qinct,φt,wt)·p(wt|wt-1,winct-1) (1) 其中:p(Λt|Λt-1)表示给定t-1帧的所有变量,产生t帧的所有变量的条件概率. 在图1中,观察值(observations)向量对应的节点是可观测节点,其余的均为隐含节点.以t帧为例加以说明:xt和yt分别表示音频和视频的特征向量,类似于隐马尔科夫模型,概率分布p(xt|qt)和p(yt|qt)采用多个高斯分布的加权和来描述.qt是音素的状态(phonestate).qinct(phonesta