语音信号处理第4版课件第13章：多模态语音信号处理.pptx

下载文档

0
0
约7.21千字
约 33页
2024-10-18 发布于山东
举报
版权申诉
保障服务

语音信号处理第4版课件第13章：多模态语音信号处理.pptx

1、本文档共33页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

南京邮电大学通信与信息工程学院第13章多模态语音信号处理

视觉信息辅助的语音增强视觉信息辅助的语音合成视觉信息辅助的语音识别多模态融合的语音情感信息处理

13.1视觉信息辅助的语音增强—概述概述：视觉信息可以作为辅助语音编码、传输、接收等过程，消除语音歧义，避免了只进行单一语音信号处理而带来的片面性。在充分挖掘视觉信息与语音之间的相关性，实现视觉信息辅助下的语音增强。主要步骤：（1）提取视觉特征和语音特征：使用CNN提取视觉特征,使用CNN或者RNN提取具有时序关联的语音特征。也可以采用变分自编码器进行视觉和语音特征提取。（2）特征融合：基于传统方法的融合分为前期融合和后期融合，前期融合发生在特征提取完成后，而后期融合通常发生在实施语音增强阶段。基于深度学习的融合中，可以方便将不同模态在各个层次的表征进行融合。本章主要介绍两种典型的视觉辅助下的语音增强方案。

13.1视觉信息辅助的语音增强—基于CNN基于CNN的视觉辅助语音增强的模型结构如图所示。相关流程：（1）首先，分别使用CNN来提取视频中的嘴唇区域特征和带噪语音特征；（2）接着，通过融合网络实现视频中的嘴部特征和带噪语音特征的深度融合；（3）最后，在输出层生成增强后的语音，同时完成视频帧的重建。

13.1视觉信息辅助的语音增强—基于CNN具体训练步骤：（1）将带噪语音的对数幅值X和与之对应的说话人嘴部区域视觉信号Z分别输入到基于CNN的语音特征提取网络和视觉特征提取网络中，得到相应的语音特征A和视觉特征V：（2）接着，将两个模态所提取出的特征进行扁平化处理、拼接，作为融合网络的输入，经过多个全连接层，最终分别输出增强后的语音以及重建的嘴部视频帧：训练过程的目标函数：在测试阶段，带噪语音信号的对数幅值和相应的视觉特征输入训练好的深度神经网络模型，输出增强语音信号的对数幅值和重建的嘴唇区域视频帧。

13.1视觉信息辅助的语音增强—基于功率二进制掩码当带噪语音中噪声占比很大时，可以充分利用视觉信息辅助完成语音增强，而当带噪语音中噪声占比较小时，视觉信息可能对语音增强性能产生不利影响。基于功率二进制掩模的语音增强方法的模型结构如图所示。其包括三个模块，分别为语音特征提取模块、视觉辅助信息生成模块以及语音增强模块。

13.1视觉信息辅助的语音增强—基于功率二进制掩码具体步骤：（1）首先，语音特征提取模块通过训练得到带噪语音和基于声学特征的增强比（IRM）之间的映射关系。IRM定义为纯净语音功率谱与带噪语音功率之比，即（2）其次，在视觉辅助信息生成模块用功率二进制掩模（PBM）表征视觉信息对语音信号的影响。用CNN提取视觉特征，接着传播到多层LSTM中，解决视觉信息与语音流之间的时移问题；通过学习语音信号的动态特性来平滑所得到的PBM；

13.1视觉信息辅助的语音增强—基于功率二进制掩码（3）最后，语音增强模块利用视觉PBM表征和语音特征获得增强后的语音。为了提升最终的增强性能，这里把和噪声的对数功率谱通过一个全连接层，再与相乘，得到语音信号的粗略表示，接着根据权重系数融合和，输出最终增强后的语音，特点：（1）采用功率二进制掩模，从视觉信息中得到语音信号的粗略表示，有效支撑了语音增强；（2）基于门控网络的后向增强体系结构，提供了语音和视觉信息之间的松散耦合，系统性能仍由语音模态进行主导，而视觉信息仅提供辅助贡献。

视觉信息辅助的语音增强视觉信息辅助的语音合成视觉信息辅助的语音识别多模态融合的语音情感信息处理

13.2视觉信息辅助的语音合成—概述概述：从无声视频片段中合成语音的任务，其核心挑战在于，需要跨越视觉与语音两个模态之间的差异来准确表征语音内容以及说话人身份特征（如音调、音色等）。（1）唇读技术传统的唇读技术主要依赖于隐马尔可夫模型（HMM）或者支持向量机（SVM），从视频中手动提取视觉特征（如口腔几何），实现视频中目标语音的合成。（2）基于端到端的视觉辅助语音合成从视频中合成语音的方法是根据视觉特征估计频谱包络，然后将其与通过人工激励所生成的语音信号相结合，采用的手段包括统计估计方法以及深度学习技术。

13.2视觉信息辅助的语音合成—基于声码器基于声码器的无声视频语音合成方法的模型结构如图所示。结构组成：一个视频编码器、一个递归模块和

您可能关注的文档

文档评论（0）

balala11 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

语音信号处理第4版课件第13章：多模态语音信号处理.pptx