End-to-end Listen, Look, Speak and Act
作者: Siyin Wang, Wenyi Yu, Xianzhao Chen, Xiaohai Tian, Jun Zhang, Lu Lu, Chao Zhang
分类: cs.AI, cs.CL, cs.CV, cs.RO, eess.AS
发布日期: 2025-10-19
备注: 22 pages, 8 figures
💡 一句话要点
提出ELLSA,首个端到端全双工多模态模型,实现类人交互。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 全双工交互 端到端模型 混合专家模型 人机交互
📋 核心要点
- 现有模型难以模拟人类自然的多模态全双工交互,如边听边看、边说边做,以及流畅的轮换和中断。
- ELLSA模型采用SA-MoE架构,通过自注意力混合专家机制,实现多模态信息的有效路由和融合,支持并发生成。
- 实验表明,ELLSA在语音交互和机器人操作任务中表现出色,并能支持更高级的多模态交互行为。
📝 摘要(中文)
本文提出ELLSA(End-to-end Listen, Look, Speak and Act),据我们所知,这是第一个全双工、端到端模型,它在单个架构内同时感知和生成视觉、文本、语音和动作,从而实现以前无法实现的交互模式,产生更自然、类人的行为。其核心是一种新颖的SA-MoE(自注意力混合专家)架构,该架构将每个模态路由到专门的专家,并通过统一的注意力主干融合它们。这为联合多模态感知和并发生成提供了一个通用的解决方案,利用强大的预训练组件,同时实现高效的模态集成并减轻模态干扰。在语音交互和机器人操作基准测试中,ELLSA与特定模态的基线相匹配,同时独特地支持高级多模态和全双工行为,例如对话和动作轮换、缺陷指令拒绝、边说边做、基于上下文的视觉问答和动作抢断。我们认为ELLSA代表了迈向更自然和通用交互智能的一步,有助于更广泛的人工通用智能的追求。所有数据、代码和模型检查点将在接受后发布。
🔬 方法详解
问题定义:现有方法在处理多模态交互时,通常是单向或半双工的,无法模拟人类自然流畅的交互方式。例如,模型可能只能在接收到完整的指令后才能开始行动,而无法在行动过程中根据新的信息进行调整。此外,不同模态的信息融合也存在挑战,容易出现模态干扰,影响模型的性能。
核心思路:ELLSA的核心思路是构建一个端到端、全双工的多模态模型,能够同时感知和生成视觉、文本、语音和动作信息。通过SA-MoE架构,将不同模态的信息路由到专门的专家进行处理,然后通过统一的注意力机制进行融合,从而实现高效的模态集成,并减轻模态干扰。
技术框架:ELLSA模型包含以下主要模块:1) 多模态输入编码器:用于将视觉、文本、语音和动作信息编码成统一的表示;2) SA-MoE架构:包含多个专家网络,每个专家负责处理特定模态的信息;3) 注意力融合模块:用于将不同专家的输出进行融合,生成最终的输出;4) 多模态输出解码器:用于将融合后的表示解码成视觉、文本、语音和动作信息。整个流程是端到端可训练的。
关键创新:ELLSA的关键创新在于SA-MoE架构,它能够根据输入模态的特点,动态地选择合适的专家进行处理,从而实现高效的模态集成。与传统的注意力机制相比,SA-MoE能够更好地处理不同模态之间的差异,并减轻模态干扰。此外,ELLSA是首个全双工的多模态模型,能够同时感知和生成多种模态的信息,从而实现更自然、类人的交互。
关键设计:SA-MoE架构中的专家网络可以是任意类型的神经网络,例如Transformer、CNN或RNN。注意力融合模块可以使用多头注意力机制,以便更好地捕捉不同模态之间的关系。损失函数可以包括交叉熵损失、均方误差损失等,用于衡量模型输出与真实值之间的差异。具体的参数设置需要根据具体的任务进行调整。
📊 实验亮点
ELLSA在语音交互和机器人操作基准测试中,性能与特定模态的基线模型相当,同时展现了独特的多模态全双工交互能力。例如,它能够进行对话和动作轮换,拒绝错误的指令,边说边做,进行基于上下文的视觉问答,以及进行动作抢断。这些结果表明ELLSA在多模态交互方面具有显著的优势。
🎯 应用场景
ELLSA模型具有广泛的应用前景,例如人机交互、机器人控制、智能助手等。它可以用于构建更自然、更智能的交互系统,例如能够理解人类语音指令并执行复杂任务的机器人,或者能够根据用户的视觉信息提供个性化服务的智能助手。未来,ELLSA有望成为通用人工智能的重要组成部分。
📄 摘要(原文)
Human interaction is inherently multimodal and full-duplex: we listen while watching, speak while acting, and fluidly adapt to turn-taking and interruptions. Realizing these capabilities is essential for building models simulating humans. We present ELLSA (End-to-end Listen, Look, Speak and Act), which, to our knowledge, is the first full-duplex, end-to-end model that simultaneously perceives and generates across vision, text, speech, and action within a single architecture, enabling interaction patterns previously out of reach, yielding more natural, human-like behaviors. At its core is a novel SA-MoE architecture (Self-Attention Mixture-of-Experts) that routes each modality to specialized experts and fuses them through a unified attention backbone. This provides a generalizable solution for joint multimodal perception and concurrent generation, leveraging strong pre-trained components while enabling efficient modality integration and mitigating modality interference. On speech-interaction and robot-manipulation benchmarks, ELLSA matches modality-specific baselines, while uniquely supporting advanced multimodal and full-duplex behaviors such as dialogue and action turn-taking, defective instruction rejection, speaking-while-acting, context-grounded visual question answering, and action barge-ins. We contend that ELLSA represents a step toward more natural and general interactive intelligence, contributing to the broader pursuit of artificial general intelligence. All data, code and model checkpoints will be released upon acceptance.