AURA: Multimodal Shared Autonomy for Real-World Urban Navigation
作者: Yukai Ma, Honglin He, Selina Song, Wayne Wu, Bolei Zhou
分类: cs.RO
发布日期: 2026-04-02
备注: 17 pages, 18 figures, 4 tables, conference
💡 一句话要点
AURA:用于真实城市导航的多模态共享自主系统
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 共享自主 多模态融合 城市导航 人机协作 视觉语言 机器人控制 指令编码
📋 核心要点
- 现有共享自主方法要求人类和AI在同一动作空间操作,导致认知负担过重,限制了效率和安全性。
- AURA框架将城市导航分解为高层人类指令和底层AI控制,通过空间感知指令编码器对齐指令与视觉空间信息。
- 实验表明AURA能有效遵循指令,减少人工操作,提升导航稳定性,并降低44%以上的接管频率。
📝 摘要(中文)
在复杂的城市环境中进行长距离导航通常依赖于持续的人工操作,这会导致疲劳、效率降低和安全问题。共享自主系统提供了一个有前景的解决方案,其中视觉-语言AI智能体与人类操作员协作来操纵移动机器。然而,现有的共享自主方法通常要求人类和AI在相同的动作空间内操作,导致较高的认知负担。本文提出了一种新的多模态框架——辅助城市机器人自主(AURA),该框架将城市导航分解为高级人类指令和低级AI控制。AURA包含一个空间感知指令编码器,用于将各种人类指令与视觉和空间上下文对齐。为了方便训练,我们构建了一个大规模数据集MM-CoS,其中包含远程操作和视觉-语言描述。在模拟和真实世界的实验表明,AURA有效地遵循人类指令,减少了手动操作工作量,并提高了导航稳定性,同时实现了在线自适应。此外,在相似的接管条件下,我们的共享自主框架将接管频率降低了44%以上。
🔬 方法详解
问题定义:现有城市导航共享自主系统通常要求人类操作者和AI智能体在相同的动作空间内进行交互,这意味着人类需要理解AI的底层控制逻辑,并精确地给出控制指令。这种方式增加了人类操作者的认知负担,降低了导航效率,并且在复杂环境中容易出错。因此,如何降低人类操作者的认知负担,提高共享自主系统的易用性和效率,是本文要解决的关键问题。
核心思路:AURA的核心思路是将城市导航任务分解为两个层次:高层的人类指令和低层的AI控制。人类操作者只需要给出高层次的导航指令,例如“左转”、“直行”等,而具体的路径规划和运动控制则由AI智能体完成。这种分层控制的方式降低了人类操作者的认知负担,使其能够更专注于全局的导航策略。
技术框架:AURA框架主要包含以下几个模块:1) 空间感知指令编码器:该模块负责将人类的指令(例如,文本描述、语音指令)与视觉和空间上下文信息进行对齐,从而使AI智能体能够理解人类的意图。2) 低层AI控制器:该模块负责根据人类指令和环境信息,进行路径规划和运动控制,实现自主导航。3) MM-CoS数据集:为了训练AURA框架,作者构建了一个大规模数据集,其中包含远程操作数据和视觉-语言描述。该数据集用于训练空间感知指令编码器和低层AI控制器。
关键创新:AURA的关键创新在于其多模态分层控制架构。与传统的共享自主系统相比,AURA将人类操作者从繁琐的底层控制中解放出来,使其能够更专注于高层次的导航决策。此外,AURA的空间感知指令编码器能够有效地将人类指令与视觉和空间上下文信息进行对齐,从而提高了AI智能体对人类意图的理解能力。
关键设计:空间感知指令编码器是AURA框架中的一个关键模块。该模块采用Transformer架构,将人类指令、视觉特征和空间特征作为输入,输出一个融合了多模态信息的嵌入向量。损失函数方面,采用了对比学习损失,鼓励相似的指令和视觉空间上下文的嵌入向量更加接近。MM-CoS数据集包含大量的远程操作数据和视觉-语言描述,这些数据被用于训练空间感知指令编码器和低层AI控制器。
🖼️ 关键图片
📊 实验亮点
AURA在模拟和真实世界的实验中都取得了显著的成果。实验结果表明,AURA能够有效地遵循人类指令,减少手动操作工作量,并提高导航稳定性。在相似的接管条件下,AURA框架将接管频率降低了44%以上,表明AURA能够显著提高共享自主系统的可靠性和安全性。MM-CoS数据集的构建也为相关研究提供了宝贵的数据资源。
🎯 应用场景
AURA框架具有广泛的应用前景,可应用于自动驾驶、机器人导航、辅助驾驶等领域。例如,在自动驾驶领域,AURA可以作为一种辅助驾驶系统,在复杂路况下辅助驾驶员进行操作,提高驾驶安全性。在机器人导航领域,AURA可以应用于服务机器人、物流机器人等,使其能够更好地理解人类指令,完成导航任务。此外,AURA还可以应用于残疾人辅助设备,帮助残疾人进行自主移动。
📄 摘要(原文)
Long-horizon navigation in complex urban environments relies heavily on continuous human operation, which leads to fatigue, reduced efficiency, and safety concerns. Shared autonomy, where a Vision-Language AI agent and a human operator collaborate on maneuvering the mobile machine, presents a promising solution to address these issues. However, existing shared autonomy methods often require humans and AI to operate within the same action space, leading to high cognitive overhead. We present Assistive Urban Robot Autonomy (AURA), a new multi-modal framework that decomposes urban navigation into high-level human instruction and low-level AI control. AURA incorporates a Spatial-Aware Instruction Encoder to align various human instructions with visual and spatial context. To facilitate training, we construct MM-CoS, a large-scale dataset comprising teleoperation and vision-language descriptions. Experiments in simulation and the real world demonstrate that AURA effectively follows human instructions, reduces manual operation effort, and improves navigation stability, while enabling online adaptation. Moreover, under similar takeover conditions, our shared autonomy framework reduces the frequency of takeovers by more than 44%. Demo video and more detail are provided in the project page.