时间异质图对比学习在多模态声事件分类中的应用.pdfVIP

  • 0
  • 0
  • 约2.87万字
  • 约 7页
  • 2026-02-27 发布于北京
  • 举报

时间异质图对比学习在多模态声事件分类中的应用.pdf

时间异质图对比学习在多模态声事件分类中的应用

YuanjianChenYangXiaoJinjieHuang

HarbinUniversityofScienceandTechnology

TheUniversityofMelbourne

ABSTRACT尽管这种多模态方法显示出巨大的潜力,但也引

多模态声学事件分类在视听系统中起着关键作用。尽入了新的挑战。其中一个关键难题在于建模音频和视

管结合音频和视觉信号可以提高识别效果,但在时间觉输入之间的正确时间关系[5,6,7]。事件往往遵循

本上对齐它们并减少跨模态噪声的影响仍然很困难。现严格的时序顺序,即使跨模态之间有微小的错位也会

译有方法通常将音频和视频流分别处理,后期通过对比使模型感到困惑。因此,设计能够有效捕捉音视频数

据间时间结构的系统是至关重要的。大多数现有的多

中或互信息目标融合特征。近期的研究探索了多模态图

1学习,但大多数未能区分模内与模间的时间依赖性。模态方法都是先分别处理音频和视觉特征再将它们结

v为了解决这个问题,我们提出了时间异构图对比学习合在一起。通常情况下,每种模式都由专门的神经网

3(THGCL)。我们的框架为每个事件构建一个时序图,络进行编码,并且它的特征会在后期通过拼接[8,9,

9

8其中音频和视频片段形成节点,它们的时序链接形成10]的方式融合。为了减少跨模态噪声,许多研究人

4

1边。我们引入高斯过程来实现模内平滑,霍克斯过程员还引入了额外的学习目标,比如对比损失或互信息

.

9来实现模间衰减,并通过对比学习捕捉细粒度的关系。最大化[4,11]。例如,跨模态师生框架[12]通过鼓

0励音频和视觉信号之间的协议来学习更稳健的嵌入表

5在AudioSet上的实验表明,THGCL实现了最先进的

2性能。示。其他方法如XDC[13]和演变损失[14]已经证明

:

v了结合单模态和多模态预训练任务以改善表示学习的

iIndexTerms—异构图,多模态,对比学习,声

x好处。

r事件分类

a超越特征融合,基于图的学习为建模多模态关系

提供了一条有前景的路径[15]。尽管在AEC中仍不常

1.介绍

见,这类方法已经在其他领域取得了成功。例如,图

多模态声学事件分类(AEC)[1,2]是智能音视频形已被用于连接图像-文本对[16],改进文本到语音中

系统中的一个重要任务。它支持许多实际应用,包括的说话风格[17],以及在社交媒体中建模用户和视频

安全监控、多媒体内容检索和人机交互[3]。这些系统的关系[18]。受此进展的启发,TMac[19]将图学习应

得益于结合音频和视觉信号来理解复杂环境。然而,用于声学事件,通过将音频和视频片段表示为节点及

在实际情况中,由于背景噪声、重叠声音或录音条件其时间链接作为边来实现。然而,大多数基于图的方

差等原因,音频信号往往不清楚。仅依赖音频可能会法仍然同等对待模内和跨模态关系,忽略了它们的时

导致事件识别错误[4]。为解决这一问题,物体运动、间差异。这通常会导致对齐不佳和表现力有限。

场景转换或唇部动作等视觉线索可以提供有价值的信

文档评论(0)

1亿VIP精品文档

相关文档