一种用于预测自然刺激下大脑反应的多模态序列到序列变换器-计算机科学-神经编码·序列到序列转换器-磁共振成像.pdfVIP

一种用于预测自然刺激下大脑反应的多模态序列到序列变换器-计算机科学-神经编码·序列到序列转换器-磁共振成像.pdf

此“医疗卫生”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

一种用于预测自然刺激下大脑反应的多模态序列到序列变换器

QianyiHeYuanChangLeong

DataScienceInstituteDepartmentofPsychology,NeuroscienceInstitute

UniversityofChicago,USAUniversityofChicago,USA

heqianyi926@ycleong@

ABSTRACT

本Algonauts2025挑战赛呼吁社区开发能够预测自然主义多模态电影引起的全脑fMRI反应的

译编码模型。在此次提交中,我们提出了一种序列到序列的Transformer,它自回归地从视觉、听

中觉和语言输入预测fMRI活动。刺激特征使用预先训练好的模型(包括VideoMAE、HuBERT、

Qwen和BridgeTower)提取。解码器通过双重交叉注意力机制整合先前脑状态和当前刺激

2的信息,这些机制关注从刺激中提取的感知信息以及由内容高层次摘要提供的叙事信息。我

v

4们方法的核心创新之一是使用多模态上下文序列来预测大脑活动序列,从而使模型能够捕捉

0到在刺激和神经反应中的长程时间结构。另一个创新之处在于结合了共享编码器与部分特定

1于主题的解码器,这利用了跨主题的共同表示结构,同时考虑到个体差异性。我们的模型在

8

1分布内和分布外数据上都表现出强大的性能,展示了对大脑活动预测而言,具有时间感知能

.

7力的多模态序列建模的有效性。代码可在/Angelneer926/Algonauts_

0challenge获取。

5

2

:Keywords神经编码序列到序列转换器自然主义电影功能磁共振成像

v

i

x

r1介绍

a

理解人类大脑如何对自然的、多模态刺激作出反应是认知神经科学中的一个核心目标。功能神经成像技术的

进步和大规模、丰富注释数据集的发布使得开发能够将感官输入映射到广泛皮层区域的大脑活动的预测模型

成为可能。Algonauts2025挑战提供了一个独特的测试平台,用于评估此类模型,并邀请来自各领域的研究

人员参与一项为期7个月的挑战,以预测受试者观看包含同步视觉、听觉和语言流的电影刺激时的整体大脑

fMRI反应[1]。

传统的建模大脑反应的方法,如有限脉冲响应(FIR)模型或岭回归,通常学习线性映射来独立预测fMRI信

号中的每个时间点,基于最近的刺激历史。[2,3]。虽然这些方法在许多情况下取得了成功,但它们往往忽视

了神经反应的动力学和自回归性质,并且在整合多模态输入或适应不同受试者个体差异方面能力有限。受到

最近研究表明深度神经网络可以有效建模对自然语言和视觉的皮层反应[4,5,6]的启发,我们提出了一种基

于序列到序列Transformer架构的方法,以更好地捕捉塑造fMRI信号随时间变化的时间依赖性和多模态交

互。类似于将一种语言的词序列映射到另一种语言的神经网络机器翻译模型[7],我们的模型将视听和语言刺

激的序列转换为大脑反应的序列,并基于完整输入序列和先前神经活动的历史来条件化每个预测。

为了考虑自然刺激物丰富的分层结构,我们从多个模态的最先进的预训练模型中提取了刺激特征:VideoMAE

用于视觉运动的时间动态特性[8],HuBERT用于声学特征[9],Qwen用于语言表示。此外,我们还结合了来

自BERT[10]的句子级别语义特征,使用构成训练和测试数据的电视节目和电影的高层次摘要。这使我们能

够提供超越时刻刺激输入[11]的更广泛的叙述背景。为了捕捉联合视觉-语言表示

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档