Stacked Regression using Off-the-shelf, Stimulus-tuned and Fine-tuned Neural Networks for Predicting fMRI Brain Responses to Movies (Algonauts 2025 Report)

📄 arXiv: 2510.06235v1 📥 PDF

作者: Robert Scholz, Kunal Bagga, Christine Ahrends, Carlo Alberto Barbano

分类: eess.IV, cs.AI, cs.CV, q-bio.NC

发布日期: 2025-10-02


💡 一句话要点

利用多模态堆叠回归预测电影刺激下fMRI脑活动,Seinfeld团队Algonauts 2025挑战赛第十名

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: fMRI预测 多模态融合 堆叠回归 脑活动解码 深度学习

📋 核心要点

  1. 现有方法难以有效融合多模态信息,从而限制了fMRI脑活动预测的准确性。
  2. 论文提出一种基于堆叠回归的多模态融合框架,结合预训练和微调模型,提升预测性能。
  3. 实验结果表明,该方法在Algonauts 2025挑战赛中取得了良好成绩,排名第10。

📝 摘要(中文)

本文介绍了我们提交给Algonauts 2025挑战赛的方案,该挑战赛的目标是预测电影刺激下的fMRI脑活动响应。我们的方法整合了来自大型语言模型、视频编码器、音频模型和视觉-语言模型的多模态表征,结合了预训练和微调的变体。为了提高性能,我们使用详细的文本记录和摘要增强了文本输入,并探索了语言和视觉模型的刺激调整和微调策略。来自各个模型的预测通过堆叠回归进行组合,产生了可靠的结果。我们的提交,团队名称为Seinfeld,排名第10。我们公开了所有代码和资源,为开发用于脑活动的多模态编码模型的持续努力做出贡献。

🔬 方法详解

问题定义:论文旨在解决电影刺激下fMRI脑活动预测问题。现有方法在处理多模态数据(视频、音频、文本)时,难以有效融合不同模态的信息,导致预测精度受限。此外,如何利用大规模预训练模型,并针对特定任务进行有效微调,也是一个挑战。

核心思路:论文的核心思路是利用堆叠回归方法,将来自不同模态(语言、视觉、音频)的预训练模型(包括预训练的和微调的)的预测结果进行融合。通过堆叠回归,可以学习不同模型之间的权重,从而更有效地利用多模态信息,提高预测准确性。

技术框架:整体框架包括以下几个主要模块:1) 多模态特征提取:使用大型语言模型、视频编码器、音频模型和视觉-语言模型提取电影刺激的文本、视觉和音频特征。2) 模型训练与微调:对部分模型进行刺激调整(stimulus-tuning)和微调(fine-tuning),以适应特定任务。3) 预测结果融合:使用堆叠回归方法,将来自不同模型的预测结果进行加权融合,得到最终的fMRI脑活动预测。

关键创新:论文的关键创新在于:1) 多模态信息的有效融合:通过堆叠回归,学习不同模态特征之间的关系,实现更有效的多模态信息融合。2) 刺激调整和微调策略:针对特定任务,对预训练模型进行刺激调整和微调,提高模型的适应性和预测精度。

关键设计:在文本输入方面,使用了详细的文本记录和摘要来增强文本信息。在模型选择方面,使用了多种预训练模型,包括大型语言模型、视频编码器、音频模型和视觉-语言模型。在堆叠回归方面,使用了线性回归模型作为元学习器,学习不同模型预测结果的权重。

📊 实验亮点

该团队在Algonauts 2025挑战赛中排名第10,验证了所提出方法的有效性。通过融合多模态信息和采用堆叠回归策略,该方法能够更准确地预测电影刺激下的fMRI脑活动响应,相较于其他参赛队伍取得了较好的性能。

🎯 应用场景

该研究成果可应用于神经科学领域,帮助研究人员更深入地理解大脑如何处理多模态信息,以及电影等复杂刺激如何影响大脑活动。此外,该方法也可用于开发更先进的脑机接口,实现更精确的意图识别和控制。

📄 摘要(原文)

We present our submission to the Algonauts 2025 Challenge, where the goal is to predict fMRI brain responses to movie stimuli. Our approach integrates multimodal representations from large language models, video encoders, audio models, and vision-language models, combining both off-the-shelf and fine-tuned variants. To improve performance, we enhanced textual inputs with detailed transcripts and summaries, and we explored stimulus-tuning and fine-tuning strategies for language and vision models. Predictions from individual models were combined using stacked regression, yielding solid results. Our submission, under the team name Seinfeld, ranked 10th. We make all code and resources publicly available, contributing to ongoing efforts in developing multimodal encoding models for brain activity.