Learning to Route: Per-Sample Adaptive Routing for Multimodal Multitask Prediction

📄 arXiv: 2509.12227v2 📥 PDF

作者: Marzieh Ajirak, Oded Bein, Ellen Rose Bowen, Dora Kanellopoulos, Avital Falk, Faith M. Gunning, Nili Solomonov, Logan Grosenick

分类: cs.LG, cs.AI

发布日期: 2025-09-06 (更新: 2025-09-29)


💡 一句话要点

提出一种自适应路由框架,用于解决多模态多任务预测中的数据异构性问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自适应路由 多模态学习 多任务学习 数据异构性 心理治疗

📋 核心要点

  1. 现有方法难以有效处理多模态多任务预测中普遍存在的数据异构性和任务相关性。
  2. 提出一种基于路由的架构,动态选择模态处理路径和任务共享策略,实现样本级别的自适应。
  3. 实验表明,该方法在预测抑郁和焦虑结果方面优于固定多任务或单任务基线,并提供可解释的洞见。

📝 摘要(中文)

本文提出了一种统一的自适应路由框架,用于多任务、多模态预测场景,其中数据异构性和任务交互因样本而异。受心理治疗应用的启发,该应用中结构化评估和非结构化临床医生笔记与部分缺失数据和相关结果共存,我们引入了一种基于路由的架构,该架构动态地选择模态处理路径和基于每个样本的任务共享策略。我们的模型定义了多个模态路径,包括文本和数字特征的原始和融合表示,并学习通过最具信息量的专家组合来路由每个输入。任务特定的预测由共享或独立的头部产生,具体取决于路由决策,并且整个系统是端到端训练的。我们在合成数据和真实世界的心理治疗笔记上评估了该模型,预测抑郁和焦虑结果。我们的实验表明,我们的方法始终优于固定的多任务或单任务基线,并且学习到的路由策略提供了对模态相关性和任务结构的可解释的见解。这通过启用针对每个受试者的自适应信息处理来解决个性化医疗保健中的关键挑战,从而解决数据异构性和任务相关性。应用于心理治疗,该框架可以通过个性化的干预策略来改善心理健康结果,提高治疗分配的精确性并提高临床成本效益。

🔬 方法详解

问题定义:论文旨在解决多模态多任务预测问题,特别是在数据异构性高且任务间交互复杂的场景下。例如,在心理治疗领域,需要同时处理结构化的评估数据和非结构化的临床笔记,并且数据可能存在缺失,同时预测多个相关的心理健康指标(如抑郁和焦虑)。现有方法通常采用固定的多模态融合和任务共享策略,无法根据不同样本的特点进行自适应调整,导致预测性能受限。

核心思路:论文的核心思路是引入一个可学习的路由机制,根据每个样本的特征动态地选择最合适的模态处理路径和任务共享策略。这种自适应路由允许模型针对不同的样本选择性地利用不同的模态信息,并决定哪些任务应该共享信息,哪些任务应该独立进行预测。

技术框架:整体架构包含以下几个主要模块:1) 多个模态路径,用于处理不同模态的输入数据(如文本和数值特征),并生成原始和融合的模态表示;2) 一个路由模块,根据输入样本的特征学习一个路由策略,决定每个样本应该通过哪个模态路径以及哪些任务应该共享信息;3) 多个任务特定的预测头,根据路由决策,利用共享或独立的特征表示进行预测。整个系统采用端到端的方式进行训练。

关键创新:最重要的创新点在于提出了一个可学习的自适应路由机制,能够根据每个样本的特点动态地选择模态处理路径和任务共享策略。与传统的固定融合和共享策略相比,这种自适应路由能够更好地利用数据中的异构性和任务间的相关性,从而提高预测性能。

关键设计:路由模块的设计是关键。具体实现细节未知,但可以推测可能使用了注意力机制或者门控机制来学习路由策略。损失函数的设计也至关重要,需要同时考虑预测的准确性和路由策略的合理性。网络结构方面,可能采用了模块化的设计,方便扩展到更多的模态和任务。

📊 实验亮点

实验结果表明,该方法在合成数据和真实世界的心理治疗笔记数据集上均取得了显著的性能提升,优于固定的多任务或单任务基线。具体提升幅度未知,但摘要中强调了“始终优于”这一结论,表明该方法具有较强的鲁棒性和泛化能力。此外,学习到的路由策略提供了对模态相关性和任务结构的可解释性洞见。

🎯 应用场景

该研究成果可应用于个性化医疗保健领域,例如心理治疗、疾病诊断和治疗方案推荐。通过自适应地处理多模态数据,可以更准确地预测患者的健康状况和治疗效果,从而制定更有效的个性化干预策略。此外,该方法还可以应用于其他领域,如金融风险评估、智能推荐系统等,提高预测精度和决策效率。

📄 摘要(原文)

We propose a unified framework for adaptive routing in multitask, multimodal prediction settings where data heterogeneity and task interactions vary across samples. Motivated by applications in psychotherapy where structured assessments and unstructured clinician notes coexist with partially missing data and correlated outcomes, we introduce a routing-based architecture that dynamically selects modality processing pathways and task-sharing strategies on a per-sample basis. Our model defines multiple modality paths, including raw and fused representations of text and numeric features and learns to route each input through the most informative expert combination. Task-specific predictions are produced by shared or independent heads depending on the routing decision, and the entire system is trained end-to-end. We evaluate the model on both synthetic data and real-world psychotherapy notes predicting depression and anxiety outcomes. Our experiments show that our method consistently outperforms fixed multitask or single-task baselines, and that the learned routing policy provides interpretable insights into modality relevance and task structure. This addresses critical challenges in personalized healthcare by enabling per-subject adaptive information processing that accounts for data heterogeneity and task correlations. Applied to psychotherapy, this framework could improve mental health outcomes, enhance treatment assignment precision, and increase clinical cost-effectiveness through personalized intervention strategies.