- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
一种用于预测自然刺激下大脑反应的多模态序列到序列变压器
QianyiHeYuanChangLeong
DataScienceInstituteDepartmentofPsychology
UniversityofChicago,USAUniversityofChicago,USA
heqianyi926@ycleong@
ABSTRACT
本Algonauts2025挑战赛呼吁社区开发能够预测自然多模态电影引发的全脑fMRI反应的编码
译模型。在此次提交中,我们提出了一种序列到序列的Transformer,它可以从视觉、听觉和语
中言输入自回归地预测fMRI活动。刺激特征使用预训练模型包括VideoMAE、HuBERT、Qwen
和BridgeTower提取。解码器通过双重交叉注意力机制整合先前的大脑状态信息、当前的刺
1激信息以及情节级别的总结,这些机制关注从刺激中提取的感觉信息以及由高层内容叙述提
v
4供的叙述信息。我们方法的核心创新之一是使用多模态上下文序列来预测大脑活动序列,使
0模型能够捕捉到刺激和神经反应中的长时序结构。另一个创新之处在于结合了共享编码器
1与部分受试者特定解码器的组合,这种组合利用了跨受试者的共同结构,同时考虑了个体差
8
1异性。我们的模型在分布内数据和分布外数据上都表现出色,证明了时间感知多模态序列建
.
7模在大脑活动预测中的有效性。代码可在/Angelneer926/Algonauts_
0challenge获取。
5
2
:Keywords神经编码序列到序列变换器自然主义电影功能磁共振成像
v
i
x
r1介绍
a
理解人类大脑如何对自然的、多模态刺激作出反应是认知神经科学的核心目标。功能性神经成像技术的进步
以及大规模丰富注释数据集的发布,使开发能够将感官输入映射到广泛皮层区域的大脑活动的预测模型成为
可能。Algonauts2025挑战提供了一个独特的测试平台来评估这些模型,邀请来自各领域的研究人员参加为
期7个月的比赛,以预测观看包含同步视觉、听觉和语言流的电影刺激时受试者的全脑fMRI反应。[1]
传统建模大脑反应的方法,如有限脉冲响应(FIR)模型或岭回归,通常学习线性映射来独立预测fMRI信号
中的每个时间点,而不考虑最近的刺激历史。[2,3]。虽然这些方法在许多设置中取得了成功,但它们往往忽
略了神经反应的动态自回归性质,并且在整合多模态输入或适应不同受试者个体差异方面的能力有限。受到
近期研究表明深度神经网络可以有效建模对自然语言和视觉的皮层反应的启发[4,5,6],我们提出了一种基
于序列到序列Transformer架构的方法,以更好地捕捉随时间塑造fMRI信号的时间依赖性和多模态交互。类
似于将一种语言中的单词序列映射到另一种语言的基于神经网络的机器翻译模型[7],我们的模型将视听和
语言刺激序列转换为大脑反应序列,并在每次预测时都考虑完整的输入序列和先前神经活动的历史。
为了考虑自然刺激物丰富的层级结构,我们从多个模态的最先进的预训练模型中提取了刺激特征:VideoMAE
用于视觉运动的时间动态[8],HuBERT用于声学特征[9],以及Qwen用于语言表征。此外,我们还结合了从
BERT[10]派生的句子级语义特征,这些特征来源于训练数据中电视节目的人工高阶摘要。这使我们能够提供
超出时刻到时刻刺激输入[11]的更广泛叙述背景。为了捕捉联合视觉语言表征,我们使用BridgeTower[12
您可能关注的文档
- 神经形态计算在自主系统中的具身智能:当前趋势、挑战和未来方向-计算机科学-神经形态计算-具身智能-脉冲神经网络.pdf
- 代理 AI 框架用于端到端医疗数据推理-计算机科学-人工智能-代理 AI.pdf
- 使用张量网络进行 3D DDPM 的参数高效微调以生成 MRI 图像-计算机科学-磁共振成像-扩散模型 -参数高效微调.pdf
- 分布不确定性用于检测分布外数据-计算机科学-机器学习-深度神经网络-语义分割.pdf
- 遥感土地利用和土地覆盖分割方法的比较-计算机科学-机器学习-城市规划-政策制定.pdf
- 识符名称相似性:一项探索性研究-计算机科学-程序理解-代码质量.pdf
- 多尺度神经 PDE 代理模型在预测和降尺度中的应用:海洋流的应用-计算机科学-机器学习-算法.pdf
- 复杂性、异质性和合规性的实证研究: GitHub 操作工作流-计算机科学-持续集成-编程语言.pdf
- DanceGraph:一种用于在线同步舞蹈的互补架构-计算机科学-在线舞蹈-动作捕捉.pdf
- 2022年贵州省遵义市汇川区中考数学第四次适应性试卷.pdf
- 2025年天津市冷链物流基地配套道路建设可行性研究报告.docx
- 2025年天津市母婴护理会所专业化服务升级路径可行性研究报告.docx
- 2025年成都市私立医院医美抗衰中心创建可行性研究报告.docx
- 2025年成都市淡化海水在城市道路清洗领域的应用可行性研究报告.docx
- 2025年上海市环卫厨余垃圾生物处理技术应用可行性研究报告.docx
- 2025年天津市花西子针对户外运动妆容的可行性.docx
- 2025年上海市生物发电于秸秆炭化还田协同发电的可行性研究.docx
- 2025年天津市物造纸在可降解农用地膜领域的应用可行性研究报告.docx
- 2025年天津市无人值守充电站智能运维可行性研究报告.docx
- 2025年天津市竹荪种植连作障碍防治技术可行性研究报告.docx
文档评论(0)