探究大脑中的多模态融合：自然编码中听觉视觉流的优势-计算机科学-脑编码模型-多模态感知.pdfVIP

下载本文档

0
0
约1.63万字
约 10页
2025-07-31 发布于北京
举报
版权申诉

探究大脑中的多模态融合：自然编码中听觉视觉流的优势-计算机科学-脑编码模型-多模态感知.pdf

此“医疗卫生”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

探究大脑中的多模态融合：自然编码中听觉视觉流的优势

HamidAbdollahi1,a,AmirHosseinMansouriMajoumerd1,b,AmirHosseinBagheriBaboukani1,c,AmirAbolfazl

Suratgar1,*,MohammadBagherMenhaj1,d

1DistributedandIntelligentOptimizationResearchLaboratory,ElectricalEngineeringDepartment,Amirkabir

UniversityofTechnology,Tehran,Iran

{ahamid.abdollahi,ba.mansouri,camir.b,dmenhaj}@aut.ac.ir

Correspondingauthor:a-suratgar@aut.ac.ir

本

译ABSTRACT

中预测大脑对自然的、多模态刺激的反应是计算神经科学的关键挑战。虽然编码模型变得越来

1越强大，但它们在真正新颖情境中的泛化能力仍然是一个关键且往往未经测试的问题。在这

v项工作中，我们开发了使用最先进的视觉（X-CLIP）和听觉（Whisper）特征提取器的大脑

2编码模型，并严格评估了它们在分布内（ID）和多样化的分布外（OOD）数据上的表现。我

0们的结果揭示了一个基本的权衡关系：高容量基于注意力的模型在ID数据上表现出色，但

9一个更简单的线性模型更具鲁棒性，在OOD集上比一个有竞争力的基准高出18%。有趣的

.是，我们发现语言特征并未提高预测准确性，这表明对于熟悉的语言而言，神经编码可能主

0要由连续的视觉和听觉流主导，而不是冗余的文本信息。在空间上，我们的方法在听觉皮层

5中表现出显著的表现增益，强调了高保真语音表示的好处。总的来说，我们的研究结果证明

2了严格的OOD测试是构建稳健的神经AI模型所必需的，并提供了关于如何模型架构、刺激

v特征和感觉层次影响我们丰富多模态世界的神经编码的细致见解。

aKeywords脑编码模型多模态感知功能磁共振成像自然刺激阿尔戈诺茨

1介绍

人类大脑无缝地将视觉、声音和语言整合成对世界的连贯体验。然而，在丰富的自然感知过程中，这些不同

的感觉模式在皮层中的表示方式及其如何结合仍然知之甚少[1,2]。最近的编码模型表明，在观看电影时，视

觉、听觉和语言特征各自解释了皮层活动的不同部分[3,4,5]。然而，大多数方法依赖于单一模式的表示或简

单地将不同模式拼接在一起，这使得更加复杂的感觉特异性表示和灵活融合策略是否能更好地模拟大脑反应

的问题仍然悬而未决——特别是在训练分布之外泛化的能力方面。

这一泛化挑战因自然刺激物（如电影）中视听流往往不完全对齐而变得更加复杂：对话、音效和非情节音乐

可能与视觉场景不符。这引发了关于编码模型如何捕捉跨模态结构的变异性以及不同脑区的神经反应是否同

样敏感于这种一致性的关键问题。

在这项工作中，我们开发了多模态编码模型来预测在自然电影观看过程中脑区级别的大脑活动，研究将先进

的视觉、听觉和语言表征与替代融合机制结合的实用性。我们在一个大规模的fMRI数据集上评估这些模型，

在分布内和分布外的音频视觉一致性不同的电影中评估其预测准确性和泛化能力。

图1:多模态编码管道的示意图。我们使用最先进的模型处理自然电影刺激，以提取视觉、听觉和语言特征。然后融合这

您可能关注的文档

文档评论（0）

zikele + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

探究大脑中的多模态融合：自然编码中听觉视觉流的优势-计算机科学-脑编码模型-多模态感知.pdfVIP