Safe-Night VLA: Seeing the Unseen via Thermal-Perceptive Vision-Language-Action Models for Safety-Critical Manipulation

📄 arXiv: 2603.05754v1 📥 PDF

作者: Dian Yu, Qingchuan Zhou, Bingkun Huang, Majid Khadiv, Zewen Yang

分类: cs.RO

发布日期: 2026-03-05


💡 一句话要点

提出Safe-Night VLA,用于夜间热感知操作的安全关键型视觉-语言-动作模型

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 多模态感知 热感知 安全约束 控制屏障函数 机器人操作 长波红外 夜间视觉

📋 核心要点

  1. 现有VLA模型依赖RGB图像,无法感知热信号等信息,限制了其在复杂环境下的应用。
  2. Safe-Night VLA融合长波红外热感知,并结合控制屏障函数实现安全约束,提升了操作的鲁棒性。
  3. 实验表明,Safe-Night VLA在温度条件操作、地下目标定位和反射消歧等方面优于RGB基线。

📝 摘要(中文)

现有的视觉-语言-动作(VLA)模型主要依赖RGB感知,无法捕捉热信号等传统视觉传感器无法感知的模态。此外,端到端生成策略缺乏显式的安全约束,在遇到障碍物和训练分布之外的新场景时显得脆弱。为了解决这些局限性,我们提出了Safe-Night VLA,这是一个多模态操作框架,使机器人能够在非结构化环境中进行热感知操作时“看到”不可见的信息,同时强制执行严格的安全约束。具体来说,Safe-Night VLA将长波红外热感知集成到预训练的视觉-语言骨干网络中,从而实现基于热力学属性的语义推理。为了确保在分布外条件下安全执行,我们通过控制屏障函数引入了一个安全过滤器,该过滤器在策略执行期间提供确定性的工作空间约束。我们通过在Franka机械臂上的真实世界实验验证了我们的框架,引入了一种新的评估范式,包括温度条件操作、地下目标定位和反射消歧,同时在推理时保持约束执行。结果表明,Safe-Night VLA优于仅使用RGB的基线,并提供了经验证据,表明基础模型可以有效地利用非可见物理模态进行鲁棒操作。

🔬 方法详解

问题定义:现有视觉-语言-动作(VLA)模型主要依赖RGB图像作为输入,无法感知环境中的热信息,这限制了它们在光照条件差或需要感知物体温度等场景下的应用。此外,现有的端到端生成策略缺乏明确的安全约束,容易在遇到未知的障碍物或环境时发生碰撞或失败。

核心思路:Safe-Night VLA的核心思路是将长波红外热感知信息融入到VLA模型中,使机器人能够“看到”不可见的热信息,从而扩展其感知能力。同时,利用控制屏障函数(Control Barrier Functions, CBF)构建安全过滤器,在策略执行过程中强制执行工作空间约束,确保操作的安全性。

技术框架:Safe-Night VLA的整体框架包含以下几个主要模块:1) 多模态感知模块:将RGB图像和长波红外热图像作为输入,通过预训练的视觉-语言骨干网络提取特征。2) 语义推理模块:利用提取的特征进行语义推理,理解任务指令和环境信息。3) 策略生成模块:根据语义推理的结果生成操作策略。4) 安全过滤模块:利用控制屏障函数对生成的策略进行安全过滤,确保操作满足预设的安全约束。

关键创新:Safe-Night VLA的关键创新在于:1) 首次将长波红外热感知融入到VLA模型中,扩展了机器人的感知能力。2) 利用控制屏障函数构建安全过滤器,实现了对操作过程的确定性安全约束。3) 提出了温度条件操作、地下目标定位和反射消歧等新的评估范式,更全面地评估了VLA模型的性能。

关键设计:在多模态感知模块中,论文采用了预训练的视觉-语言骨干网络,例如CLIP,并对其进行微调,以适应RGB图像和长波红外热图像的融合。在安全过滤模块中,控制屏障函数的设计需要根据具体的机器人和任务进行调整,以确保安全约束的有效性。具体的参数设置和网络结构等细节在论文中进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Safe-Night VLA在真实世界的实验中表现出色,在温度条件操作、地下目标定位和反射消歧等任务中均优于RGB-only基线。实验结果表明,Safe-Night VLA能够有效地利用非可见物理模态进行鲁棒操作,验证了基础模型在多模态感知方面的潜力。具体性能提升数据在论文中有详细展示。

🎯 应用场景

Safe-Night VLA在夜间搜救、消防救援、工业检测等领域具有广泛的应用前景。例如,消防员可以利用该技术在浓烟环境中定位火源和被困人员;工业检测人员可以利用该技术检测设备的温度异常,预防安全事故。该研究有望推动机器人技术在复杂环境下的应用,提升机器人的自主性和安全性。

📄 摘要(原文)

Current Vision-Language-Action (VLA) models rely primarily on RGB perception, preventing them from capturing modalities such as thermal signals that are imperceptible to conventional visual sensors. Moreover, end-to-end generative policies lack explicit safety constraints, making them fragile when encountering obstacles and novel scenarios outside the training distribution. To address these limitations, we propose Safe-Night VLA, a multimodal manipulation framework that enables robots to see the unseen while enforcing rigorous safety constraints for thermal-aware manipulation in unstructured environments. Specifically, Safe-Night VLA integrates long-wave infrared thermal perception into a pre-trained vision-language backbone, enabling semantic reasoning grounded in thermodynamic properties. To ensure safe execution under out-of-distribution conditions, we incorporate a safety filter via control barrier functions, which provide deterministic workspace constraint enforcement during policy execution. We validate our framework through real-world experiments on a Franka manipulator, introducing a novel evaluation paradigm featuring temperature-conditioned manipulation, subsurface target localization, and reflection disambiguation, while maintaining constrained execution at inference time. Results demonstrate that Safe-Night VLA outperforms RGB-only baselines and provide empirical evidence that foundation models can effectively leverage non-visible physical modalities for robust manipulation.