一种用于预测自然刺激下大脑反应的多模态序列到序列变压器-计算机科学-神经编码-序列变换器-预训练模型.pdfVIP

一种用于预测自然刺激下大脑反应的多模态序列到序列变压器-计算机科学-神经编码-序列变换器-预训练模型.pdf

此“医疗卫生”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

一种用于预测自然刺激下大脑反应的多模态序列到序列变压器

QianyiHeYuanChangLeong

DataScienceInstituteDepartmentofPsychology

UniversityofChicago,USAUniversityofChicago,USA

heqianyi926@ycleong@

ABSTRACT

本Algonauts2025挑战赛呼吁社区开发能够预测自然多模态电影引发的全脑fMRI反应的编码

译模型。在此次提交中,我们提出了一种序列到序列的Transformer,它可以从视觉、听觉和语

中言输入自回归地预测fMRI活动。刺激特征使用预训练模型包括VideoMAE、HuBERT、Qwen

和BridgeTower提取。解码器通过双重交叉注意力机制整合先前的大脑状态信息、当前的刺

1激信息以及情节级别的总结,这些机制关注从刺激中提取的感觉信息以及由高层内容叙述提

v

4供的叙述信息。我们方法的核心创新之一是使用多模态上下文序列来预测大脑活动序列,使

0模型能够捕捉到刺激和神经反应中的长时序结构。另一个创新之处在于结合了共享编码器

1与部分受试者特定解码器的组合,这种组合利用了跨受试者的共同结构,同时考虑了个体差

8

1异性。我们的模型在分布内数据和分布外数据上都表现出色,证明了时间感知多模态序列建

.

7模在大脑活动预测中的有效性。代码可在/Angelneer926/Algonauts_

0challenge获取。

5

2

:Keywords神经编码序列到序列变换器自然主义电影功能磁共振成像

v

i

x

r1介绍

a

理解人类大脑如何对自然的、多模态刺激作出反应是认知神经科学的核心目标。功能性神经成像技术的进步

以及大规模丰富注释数据集的发布,使开发能够将感官输入映射到广泛皮层区域的大脑活动的预测模型成为

可能。Algonauts2025挑战提供了一个独特的测试平台来评估这些模型,邀请来自各领域的研究人员参加为

期7个月的比赛,以预测观看包含同步视觉、听觉和语言流的电影刺激时受试者的全脑fMRI反应。[1]

传统建模大脑反应的方法,如有限脉冲响应(FIR)模型或岭回归,通常学习线性映射来独立预测fMRI信号

中的每个时间点,而不考虑最近的刺激历史。[2,3]。虽然这些方法在许多设置中取得了成功,但它们往往忽

略了神经反应的动态自回归性质,并且在整合多模态输入或适应不同受试者个体差异方面的能力有限。受到

近期研究表明深度神经网络可以有效建模对自然语言和视觉的皮层反应的启发[4,5,6],我们提出了一种基

于序列到序列Transformer架构的方法,以更好地捕捉随时间塑造fMRI信号的时间依赖性和多模态交互。类

似于将一种语言中的单词序列映射到另一种语言的基于神经网络的机器翻译模型[7],我们的模型将视听和

语言刺激序列转换为大脑反应序列,并在每次预测时都考虑完整的输入序列和先前神经活动的历史。

为了考虑自然刺激物丰富的层级结构,我们从多个模态的最先进的预训练模型中提取了刺激特征:VideoMAE

用于视觉运动的时间动态[8],HuBERT用于声学特征[9],以及Qwen用于语言表征。此外,我们还结合了从

BERT[10]派生的句子级语义特征,这些特征来源于训练数据中电视节目的人工高阶摘要。这使我们能够提供

超出时刻到时刻刺激输入[11]的更广泛叙述背景。为了捕捉联合视觉语言表征,我们使用BridgeTower[12

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档