- 0
- 0
- 约2.84万字
- 约 5页
- 2026-02-26 发布于北京
- 举报
©2026IEEE.Personaluseofthismaterialispermitted.PermissionfromIEEEmustbeobtainedforallotheruses,inanycurrentorfuturemedia,
includingreprinting/republishingthismaterialforadvertisingorpromotionalpurposes,creatingnewcollectiveworks,forresaleorredistributionto
serversorlists,orreuseofanycopyrightedcomponentofthisworkinotherworks.
MMED:基于音视频融合的多模态微表情数据集
JunboWangYanZhaoShuoLiShiboWangShigangWangJianWei
CollegeofCommunicationEngineering,JilinUniversity
ABSTRACT吸模式或细微的非言语声音相结合,形成一种整体的理解[16]。
微表情(MEs)是隐藏情绪的重要泄露途径,但其研究受到了仅因此,需要一个能够深入探索音频-视频协同作用在微表情中的
依赖静默、纯视觉数据的限制。为了解决这一问题,我们引入了资源。基于此,我们生成了一个公开可用的音频-视频微表情数
两个主要贡献。首先,MMED是据我们所知首个捕捉在生态有据集:MMED。我们的主要贡献总结如下:
效且高风险互动中与MEs同时出现的自发性声音线索的数据1)一种新颖的音视频微表情数据集。我们介绍了MMED,
集。其次,非对称多模态融合网络(AMF-Net)是一种新颖的方据我们所知,这是第一个捕捉来自现实世界交互引发的同步音
法,通过非对称交叉注意力框架有效地将全局视觉摘要与动态视频微表情记录的数据集。该数据集作为实用工具,通过结合
音频序列进行融合。严格的留一被试法交叉验证(LOSO-CV)听觉信息和传统视觉线索来实现微表情识别。
实验验证了我们的方法,提供了确凿的证据表明音频为ME分2)一个强大的多模态融合基线。为了验证我们的数据集的
析提供关键且具有辨识力的信息。总体而言,MMED数据集有效性,我们提出了一种新型的非对称多模态融合网络(AMF-
本和我们的AMF-Net方法为微表情识别提供了有价值的资源和Net),该网络引入了非对称交叉注意力机制,有效融合全局视
译经过验证的分析方法。觉摘要与动态时域音频线索,建立了强大的性能基准,并为未
来的多模态ME分析提供了可行路径。
中IndexTerms—微表情识别,多模态学习,数据集,音视3)音频模态的经验验证。通过全面的实验,我们验证了所
频融合提出的数据集和融合网络的有效性。我们的研究结果表明,多
1模态融合显著优于仅视觉的方法,验证了音频通道的重要性。
v1.介绍
2
9在人类交流的过程中,微表情(MEs)作为短暂但有力的2.混合增强现实设备
5信号,揭示了一个人的真实情感状态,在从法庭到高度社交欺
4骗游戏等各种情境中经常揭露被压抑的情感[1]。尽管它们在国微表情的高度瞬变和低幅度性质构成了一个基本挑战:仅
1家安全和临床心理学等领域具有重要性[2],微表情的自动识别凭视觉信号可能会产生歧义。然而,听觉通道提供了一个丰富
9.仍然是一个严峻的挑战,与可用数据的局限性紧密相关。
您可能关注的文档
- 跨语言 F5-TTS:迈向语言无关的声音克隆和语音合成.pdf
- 弱对抗神经推前映射用于 Fokker-Planck 方程.pdf
- 域适应 用于溃疡性结肠炎严重程度估计使用患者级诊断.pdf
- DICE: 稀疏视图 CT 重建的扩散共识平衡.pdf
- 基于扩散的二维地图视觉定位通过 BEV 条件下的 GPS 去噪.pdf
- 具有结构约束的可重构多机器人拆卸系统的分层规划与调度.pdf
- RADIOLUNADIFF:月球地形中无线网络信号强度的估计.pdf
- CLAIP-EMO:语言监督模型的参数高效适应于野外音视频情感识别.pdf
- 基于 IEEE 802.11p 的 V2V 网络中分布式激光雷达点云共享的软件定义无线电测试平台.pdf
- 几何感知的去中心化 Sinkhorn 方法用于 Wasserstein 重心.pdf
原创力文档

文档评论(0)