MMED：基于音视频融合的多模态微表情数据集.pdfVIP

MMED：基于音视频融合的多模态微表情数据集.pdf

includingreprinting/republishingthismaterialforadvertisingorpromotionalpurposes,creatingnewcollectiveworks,forresaleorredistributionto

serversorlists,orreuseofanycopyrightedcomponentofthisworkinotherworks.

MMED：基于音视频融合的多模态微表情数据集

JunboWangYanZhaoShuoLiShiboWangShigangWangJianWei

CollegeofCommunicationEngineering,JilinUniversity

ABSTRACT吸模式或细微的非言语声音相结合，形成一种整体的理解[16]。

微表情（MEs）是隐藏情绪的重要泄露途径，但其研究受到了仅因此，需要一个能够深入探索音频-视频协同作用在微表情中的

依赖静默、纯视觉数据的限制。为了解决这一问题，我们引入了资源。基于此，我们生成了一个公开可用的音频-视频微表情数

两个主要贡献。首先，MMED是据我们所知首个捕捉在生态有据集：MMED。我们的主要贡献总结如下：

效且高风险互动中与MEs同时出现的自发性声音线索的数据1)一种新颖的音视频微表情数据集。我们介绍了MMED，

集。其次，非对称多模态融合网络（AMF-Net）是一种新颖的方据我们所知，这是第一个捕捉来自现实世界交互引发的同步音

法，通过非对称交叉注意力框架有效地将全局视觉摘要与动态视频微表情记录的数据集。该数据集作为实用工具，通过结合

音频序列进行融合。严格的留一被试法交叉验证（LOSO-CV）听觉信息和传统视觉线索来实现微表情识别。

实验验证了我们的方法，提供了确凿的证据表明音频为ME分2)一个强大的多模态融合基线。为了验证我们的数据集的

析提供关键且具有辨识力的信息。总体而言，MMED数据集有效性，我们提出了一种新型的非对称多模态融合网络（AMF-

本和我们的AMF-Net方法为微表情识别提供了有价值的资源和Net），该网络引入了非对称交叉注意力机制，有效融合全局视

译经过验证的分析方法。觉摘要与动态时域音频线索，建立了强大的性能基准，并为未

来的多模态ME分析提供了可行路径。

中IndexTerms—微表情识别，多模态学习，数据集，音视3)音频模态的经验验证。通过全面的实验，我们验证了所

频融合提出的数据集和融合网络的有效性。我们的研究结果表明，多

1模态融合显著优于仅视觉的方法，验证了音频通道的重要性。

v1.介绍

9在人类交流的过程中，微表情（MEs）作为短暂但有力的2.混合增强现实设备

5信号，揭示了一个人的真实情感状态，在从法庭到高度社交欺

4骗游戏等各种情境中经常揭露被压抑的情感[1]。尽管它们在国微表情的高度瞬变和低幅度性质构成了一个基本挑战：仅

1家安全和临床心理学等领域具有重要性[2]，微表情的自动识别凭视觉信号可能会产生歧义。然而，听觉通道提供了一个丰富

9.仍然是一个严峻的挑战，与可用数据的局限性紧密相关。

更多 >