End-to-end Listen, Look, Speak and Act

作者: Siyin Wang, Wenyi Yu, Xianzhao Chen, Xiaohai Tian, Jun Zhang, Lu Lu, Chao Zhang

分类: cs.AI, cs.CL, cs.CV, cs.RO, eess.AS

发布日期: 2025-10-19

备注: 22 pages, 8 figures

💡 一句话要点

提出ELLSA，首个端到端全双工多模态模型，实现类人交互。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 全双工交互 端到端模型 混合专家模型 人机交互

📋 核心要点

现有模型难以模拟人类自然的多模态全双工交互，如边听边看、边说边做，以及流畅的轮换和中断。
ELLSA模型采用SA-MoE架构，通过自注意力混合专家机制，实现多模态信息的有效路由和融合，支持并发生成。
实验表明，ELLSA在语音交互和机器人操作任务中表现出色，并能支持更高级的多模态交互行为。

📝 摘要（中文）

本文提出ELLSA（End-to-end Listen, Look, Speak and Act），据我们所知，这是第一个全双工、端到端模型，它在单个架构内同时感知和生成视觉、文本、语音和动作，从而实现以前无法实现的交互模式，产生更自然、类人的行为。其核心是一种新颖的SA-MoE（自注意力混合专家）架构，该架构将每个模态路由到专门的专家，并通过统一的注意力主干融合它们。这为联合多模态感知和并发生成提供了一个通用的解决方案，利用强大的预训练组件，同时实现高效的模态集成并减轻模态干扰。在语音交互和机器人操作基准测试中，ELLSA与特定模态的基线相匹配，同时独特地支持高级多模态和全双工行为，例如对话和动作轮换、缺陷指令拒绝、边说边做、基于上下文的视觉问答和动作抢断。我们认为ELLSA代表了迈向更自然和通用交互智能的一步，有助于更广泛的人工通用智能的追求。所有数据、代码和模型检查点将在接受后发布。

🔬 方法详解

问题定义：现有方法在处理多模态交互时，通常是单向或半双工的，无法模拟人类自然流畅的交互方式。例如，模型可能只能在接收到完整的指令后才能开始行动，而无法在行动过程中根据新的信息进行调整。此外，不同模态的信息融合也存在挑战，容易出现模态干扰，影响模型的性能。

核心思路：ELLSA的核心思路是构建一个端到端、全双工的多模态模型，能够同时感知和生成视觉、文本、语音和动作信息。通过SA-MoE架构，将不同模态的信息路由到专门的专家进行处理，然后通过统一的注意力机制进行融合，从而实现高效的模态集成，并减轻模态干扰。

技术框架：ELLSA模型包含以下主要模块：1) 多模态输入编码器：用于将视觉、文本、语音和动作信息编码成统一的表示；2) SA-MoE架构：包含多个专家网络，每个专家负责处理特定模态的信息；3) 注意力融合模块：用于将不同专家的输出进行融合，生成最终的输出；4) 多模态输出解码器：用于将融合后的表示解码成视觉、文本、语音和动作信息。整个流程是端到端可训练的。

关键创新：ELLSA的关键创新在于SA-MoE架构，它能够根据输入模态的特点，动态地选择合适的专家进行处理，从而实现高效的模态集成。与传统的注意力机制相比，SA-MoE能够更好地处理不同模态之间的差异，并减轻模态干扰。此外，ELLSA是首个全双工的多模态模型，能够同时感知和生成多种模态的信息，从而实现更自然、类人的交互。

关键设计：SA-MoE架构中的专家网络可以是任意类型的神经网络，例如Transformer、CNN或RNN。注意力融合模块可以使用多头注意力机制，以便更好地捕捉不同模态之间的关系。损失函数可以包括交叉熵损失、均方误差损失等，用于衡量模型输出与真实值之间的差异。具体的参数设置需要根据具体的任务进行调整。

📊 实验亮点

ELLSA在语音交互和机器人操作基准测试中，性能与特定模态的基线模型相当，同时展现了独特的多模态全双工交互能力。例如，它能够进行对话和动作轮换，拒绝错误的指令，边说边做，进行基于上下文的视觉问答，以及进行动作抢断。这些结果表明ELLSA在多模态交互方面具有显著的优势。

🎯 应用场景

ELLSA模型具有广泛的应用前景，例如人机交互、机器人控制、智能助手等。它可以用于构建更自然、更智能的交互系统，例如能够理解人类语音指令并执行复杂任务的机器人，或者能够根据用户的视觉信息提供个性化服务的智能助手。未来，ELLSA有望成为通用人工智能的重要组成部分。

📄 摘要（原文）

Human interaction is inherently multimodal and full-duplex: we listen while watching, speak while acting, and fluidly adapt to turn-taking and interruptions. Realizing these capabilities is essential for building models simulating humans. We present ELLSA (End-to-end Listen, Look, Speak and Act), which, to our knowledge, is the first full-duplex, end-to-end model that simultaneously perceives and generates across vision, text, speech, and action within a single architecture, enabling interaction patterns previously out of reach, yielding more natural, human-like behaviors. At its core is a novel SA-MoE architecture (Self-Attention Mixture-of-Experts) that routes each modality to specialized experts and fuses them through a unified attention backbone. This provides a generalizable solution for joint multimodal perception and concurrent generation, leveraging strong pre-trained components while enabling efficient modality integration and mitigating modality interference. On speech-interaction and robot-manipulation benchmarks, ELLSA matches modality-specific baselines, while uniquely supporting advanced multimodal and full-duplex behaviors such as dialogue and action turn-taking, defective instruction rejection, speaking-while-acting, context-grounded visual question answering, and action barge-ins. We contend that ELLSA represents a step toward more natural and general interactive intelligence, contributing to the broader pursuit of artificial general intelligence. All data, code and model checkpoints will be released upon acceptance.

End-to-end Listen, Look, Speak and Act

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册