时间异质图对比学习在多模态声事件分类中的应用.pdfVIP

时间异质图对比学习在多模态声事件分类中的应用.pdf

时间异质图对比学习在多模态声事件分类中的应用

YuanjianChenYangXiaoJinjieHuang

HarbinUniversityofScienceandTechnology

TheUniversityofMelbourne

ABSTRACT尽管这种多模态方法显示出巨大的潜力，但也引

多模态声学事件分类在视听系统中起着关键作用。尽入了新的挑战。其中一个关键难题在于建模音频和视

管结合音频和视觉信号可以提高识别效果，但在时间觉输入之间的正确时间关系[5,6,7]。事件往往遵循

本上对齐它们并减少跨模态噪声的影响仍然很困难。现严格的时序顺序，即使跨模态之间有微小的错位也会

译有方法通常将音频和视频流分别处理，后期通过对比使模型感到困惑。因此，设计能够有效捕捉音视频数

据间时间结构的系统是至关重要的。大多数现有的多

中或互信息目标融合特征。近期的研究探索了多模态图

1学习，但大多数未能区分模内与模间的时间依赖性。模态方法都是先分别处理音频和视觉特征再将它们结

v为了解决这个问题，我们提出了时间异构图对比学习合在一起。通常情况下，每种模式都由专门的神经网

3（THGCL）。我们的框架为每个事件构建一个时序图，络进行编码，并且它的特征会在后期通过拼接[8,9,

8其中音频和视频片段形成节点，它们的时序链接形成10]的方式融合。为了减少跨模态噪声，许多研究人

1边。我们引入高斯过程来实现模内平滑，霍克斯过程员还引入了额外的学习目标，比如对比损失或互信息

9来实现模间衰减，并通过对比学习捕捉细粒度的关系。最大化[4,11]。例如，跨模态师生框架[12]通过鼓

0励音频和视觉信号之间的协议来学习更稳健的嵌入表

5在AudioSet上的实验表明，THGCL实现了最先进的

2性能。示。其他方法如XDC[13]和演变损失[14]已经证明

v了结合单模态和多模态预训练任务以改善表示学习的

iIndexTerms—异构图，多模态，对比学习，声

x好处。

r事件分类

a超越特征融合，基于图的学习为建模多模态关系

提供了一条有前景的路径[15]。尽管在AEC中仍不常

1.介绍

见，这类方法已经在其他领域取得了成功。例如，图

多模态声学事件分类（AEC）[1,2]是智能音视频形已被用于连接图像-文本对[16]，改进文本到语音中

系统中的一个重要任务。它支持许多实际应用，包括的说话风格[17]，以及在社交媒体中建模用户和视频

安全监控、多媒体内容检索和人机交互[3]。这些系统的关系[18]。受此进展的启发，TMac[19]将图学习应

得益于结合音频和视觉信号来理解复杂环境。然而，用于声学事件，通过将音频和视频片段表示为节点及

在实际情况中，由于背景噪声、重叠声音或录音条件其时间链接作为边来实现。然而，大多数基于图的方

差等原因，音频信号往往不清楚。仅依赖音频可能会法仍然同等对待模内和跨模态关系，忽略了它们的时

导致事件识别错误[4]。为解决这一问题，物体运动、间差异。这通常会导致对齐不佳和表现力有限。