- 0
- 0
- 约2.87万字
- 约 7页
- 2026-02-27 发布于北京
- 举报
时间异质图对比学习在多模态声事件分类中的应用
YuanjianChenYangXiaoJinjieHuang
HarbinUniversityofScienceandTechnology
TheUniversityofMelbourne
ABSTRACT尽管这种多模态方法显示出巨大的潜力,但也引
多模态声学事件分类在视听系统中起着关键作用。尽入了新的挑战。其中一个关键难题在于建模音频和视
管结合音频和视觉信号可以提高识别效果,但在时间觉输入之间的正确时间关系[5,6,7]。事件往往遵循
本上对齐它们并减少跨模态噪声的影响仍然很困难。现严格的时序顺序,即使跨模态之间有微小的错位也会
译有方法通常将音频和视频流分别处理,后期通过对比使模型感到困惑。因此,设计能够有效捕捉音视频数
据间时间结构的系统是至关重要的。大多数现有的多
中或互信息目标融合特征。近期的研究探索了多模态图
1学习,但大多数未能区分模内与模间的时间依赖性。模态方法都是先分别处理音频和视觉特征再将它们结
v为了解决这个问题,我们提出了时间异构图对比学习合在一起。通常情况下,每种模式都由专门的神经网
3(THGCL)。我们的框架为每个事件构建一个时序图,络进行编码,并且它的特征会在后期通过拼接[8,9,
9
8其中音频和视频片段形成节点,它们的时序链接形成10]的方式融合。为了减少跨模态噪声,许多研究人
4
1边。我们引入高斯过程来实现模内平滑,霍克斯过程员还引入了额外的学习目标,比如对比损失或互信息
.
9来实现模间衰减,并通过对比学习捕捉细粒度的关系。最大化[4,11]。例如,跨模态师生框架[12]通过鼓
0励音频和视觉信号之间的协议来学习更稳健的嵌入表
5在AudioSet上的实验表明,THGCL实现了最先进的
2性能。示。其他方法如XDC[13]和演变损失[14]已经证明
:
v了结合单模态和多模态预训练任务以改善表示学习的
iIndexTerms—异构图,多模态,对比学习,声
x好处。
r事件分类
a超越特征融合,基于图的学习为建模多模态关系
提供了一条有前景的路径[15]。尽管在AEC中仍不常
1.介绍
见,这类方法已经在其他领域取得了成功。例如,图
多模态声学事件分类(AEC)[1,2]是智能音视频形已被用于连接图像-文本对[16],改进文本到语音中
系统中的一个重要任务。它支持许多实际应用,包括的说话风格[17],以及在社交媒体中建模用户和视频
安全监控、多媒体内容检索和人机交互[3]。这些系统的关系[18]。受此进展的启发,TMac[19]将图学习应
得益于结合音频和视觉信号来理解复杂环境。然而,用于声学事件,通过将音频和视频片段表示为节点及
在实际情况中,由于背景噪声、重叠声音或录音条件其时间链接作为边来实现。然而,大多数基于图的方
差等原因,音频信号往往不清楚。仅依赖音频可能会法仍然同等对待模内和跨模态关系,忽略了它们的时
导致事件识别错误[4]。为解决这一问题,物体运动、间差异。这通常会导致对齐不佳和表现力有限。
场景转换或唇部动作等视觉线索可以提供有价值的信
您可能关注的文档
- 显式与隐式传记:评估和调整基于 Wikidata 的文本中的 LLM 信息提取.pdf
- 变压器模型在社交机器人检测中的比较分析.pdf
- 计算机辅助设计驱动的飞行准备型喷气动力仿人机器人协同设计.pdf
- 通过反记忆化指导减轻文本到音频生成扩散模型中的数据复制问题.pdf
- 跨模态知识蒸馏在语音大型语言模型中的应用.pdf
- GenKOL: 模块化生成 AI 框架用于可扩展虚拟 KOL 生成.pdf
- 自解释强化学习在 移动网络资源分配中的应用.pdf
- 成本性能分析:基于 CPU 的无服务器和基于 GPU 的训练架构的比较研究.pdf
- 返回耳朵:感知驱动的高保真音乐重构.pdf
- 人工智能与市场新进入者游戏开发者.pdf
最近下载
- 《工业控制系统简介》课件.ppt VIP
- 村委员竞选演讲稿汇总7篇.docx VIP
- 客户服务管理.ppt VIP
- 给排水国标图集-04S520:埋地塑料排水管道施工.pdf VIP
- 小学生主题班会通用版《珍爱生命,远离毒品》课件(共24张PPT+视频).pptx VIP
- 聚集性事件、药品群体不良事件调查处置标准操作规程.docx VIP
- 团圆绘本教学省公开课一等奖全国示范课微课金奖PPT课件.pptx VIP
- 2026年度江苏旅游职业学院单招《数学》综合提升测试卷及答案详解(典优).docx VIP
- 2025至2030中国烟草包装行业发展研究与产业战略规划分析评估报告.docx VIP
- 青岛天信BPJ-500-1140矿用隔爆兼本质安全变频器说明书.pdf VIP
原创力文档

文档评论(0)