Lightweight Visual Reasoning for Socially-Aware Robots

📄 arXiv: 2603.03942v1 📥 PDF

作者: Alessio Galatolo, Ronald Cumbal, Alexandros Rouchitsas, Katie Winkle, Didem Gürdür Broo, Ginevra Castellano

分类: cs.RO

发布日期: 2026-03-04

备注: ICRA26

🔗 代码/项目: GITHUB


💡 一句话要点

提出轻量级语言-视觉反馈模块,增强社交机器人视觉推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉推理 人机交互 视觉-语言模型 机器人 语言-视觉反馈 多模态学习

📋 核心要点

  1. 现有视觉-语言模型在复杂多模态人机交互中,难以有效理解和响应人类行为。
  2. 提出轻量级语言-视觉反馈模块,通过LLM和视觉编码器间的循环,在文本上下文中重新理解场景。
  3. 实验表明,该方法在导航、场景描述和人类意图识别等任务上,均能有效提升模型性能。

📝 摘要(中文)

在共享人类环境中运行的机器人不仅需要导航、交互和检测周围环境,还必须解释和响应动态且通常不可预测的人类行为。尽管最近的进展表明,使用视觉-语言模型(VLM)增强机器人感知和指令跟随具有前景,但它们在解决多模态人机交互(HRI)的复杂性方面仍然有限。为了应对这一挑战,我们引入了一个轻量级的语言-视觉反馈模块,该模块闭合了LLM和VLM中视觉编码器之间的循环。该模块通过门控多层感知器(MLP)将图像token隐藏状态投影回编码器输入,从而提示第二次传递,在文本上下文中重新解释场景。我们在三个以机器人为中心的任务上评估了这种方法:模拟环境中的导航(Habitat)、顺序场景描述(Mementos-Robotics)和人类意图识别(我们的HRI数据集)。结果表明,我们的方法使Qwen 2.5 (7B)的性能提高了3.3%(更短的距离),+0.057的描述分数和+2.93%的准确率,且参数增加不到3%;Gemma 3 (4B)和LLaVA OV 1.5 (4B)显示出混合的导航结果,但在后两个任务中分别获得了+0.111,+0.055和+10.81%,+4.79%的提升。代码可在https://github.com/alessioGalatolo/VLM-Reasoning-for-Robotics 获取。

🔬 方法详解

问题定义:现有视觉-语言模型在处理复杂的人机交互场景时,缺乏有效的视觉推理能力,难以准确理解人类的意图和行为。这主要是因为这些模型通常是单向的,即文本信息指导视觉信息的处理,但缺乏视觉信息对文本理解的反馈,导致模型无法充分利用场景中的上下文信息。

核心思路:论文的核心思路是引入一个轻量级的语言-视觉反馈模块,该模块能够将语言模型的理解反馈到视觉编码器中,从而使视觉编码器能够根据文本上下文重新解释场景。这种反馈机制使得模型能够更好地理解场景中的语义信息,从而提高其在人机交互任务中的性能。

技术框架:整体框架包含一个视觉-语言模型(VLM),以及一个轻量级的语言-视觉反馈模块。首先,VLM的视觉编码器对输入图像进行编码,得到图像token的隐藏状态。然后,语言模型处理文本输入,并生成文本上下文信息。接下来,反馈模块将图像token的隐藏状态通过一个门控多层感知器(MLP)投影回视觉编码器的输入,从而引导视觉编码器进行第二次场景理解。最后,模型基于更新后的视觉特征和文本信息进行推理和预测。

关键创新:该论文的关键创新在于提出了一个轻量级的语言-视觉反馈模块,该模块能够有效地将语言模型的理解反馈到视觉编码器中,从而提高模型在人机交互任务中的性能。与现有方法相比,该方法不需要对整个VLM进行重新训练,而是通过一个轻量级的模块来实现反馈机制,从而降低了计算成本。

关键设计:反馈模块的核心是一个门控多层感知器(MLP),该MLP将图像token的隐藏状态投影回视觉编码器的输入。门控机制用于控制反馈信息的强度,从而避免过度干扰视觉编码器的原始特征。此外,论文还采用了残差连接,以确保反馈模块不会破坏原始视觉特征的信息。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,该方法在三个机器人任务上均取得了显著的性能提升。在Habitat导航任务中,Qwen 2.5 (7B)的导航距离降低了3.3%。在Mementos-Robotics场景描述任务中,Qwen 2.5 (7B)的描述分数提高了0.057。在HRI人类意图识别任务中,Qwen 2.5 (7B)的准确率提高了2.93%。此外,Gemma 3 (4B)和LLaVA OV 1.5 (4B)在场景描述和人类意图识别任务中也取得了显著的性能提升。

🎯 应用场景

该研究成果可应用于多种人机交互场景,例如:服务机器人、辅助机器人、自动驾驶等。通过增强机器人对人类意图的理解能力,可以使机器人更安全、更有效地与人类协作,从而提高工作效率和生活质量。未来,该技术有望在智能家居、医疗保健等领域发挥重要作用。

📄 摘要(原文)

Robots operating in shared human environments must not only navigate, interact, and detect their surroundings, they must also interpret and respond to dynamic, and often unpredictable, human behaviours. Although recent advances have shown promise in enhancing robotic perception and instruction-following using Vision-Language Models (VLMs), they remain limited in addressing the complexities of multimodal human-robot interactions (HRI). Motivated by this challenge, we introduce a lightweight language-to-vision feedback module that closes the loop between an LLM and the vision encoder in VLMs. The module projects image-token hidden states through a gated Multi-Layer Perceptron (MLP) back into the encoder input, prompting a second pass that reinterprets the scene under text context. We evaluate this approach on three robotics-centred tasks: navigation in a simulated environment (Habitat), sequential scene description (Mementos-Robotics), and human-intention recognition (our HRI dataset). Results show that our method improves Qwen 2.5 (7B) by $3.3\%$ (less distance), $+0.057$ description score, and $+2.93\%$ accuracy, with less than $3\%$ extra parameters; Gemma 3 (4B) and LLaVA OV 1.5 (4B) show mixed navigation results but gains $+0.111,+0.055$ and $+10.81\%,+4.79\%$ on the latter two tasks. Code is available at https://github.com/alessioGalatolo/VLM-Reasoning-for-Robotics