Safe-Night VLA: Seeing the Unseen via Thermal-Perceptive Vision-Language-Action Models for Safety-Critical Manipulation

作者: Dian Yu, Qingchuan Zhou, Bingkun Huang, Majid Khadiv, Zewen Yang

分类: cs.RO

发布日期: 2026-03-05

💡 一句话要点

提出Safe-Night VLA，用于夜间热感知操作的安全关键型视觉-语言-动作模型

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 多模态感知 热感知 安全约束 控制屏障函数 机器人操作 长波红外 夜间视觉

📋 核心要点

现有VLA模型依赖RGB图像，无法感知热信号等信息，限制了其在复杂环境下的应用。
Safe-Night VLA融合长波红外热感知，并结合控制屏障函数实现安全约束，提升了操作的鲁棒性。
实验表明，Safe-Night VLA在温度条件操作、地下目标定位和反射消歧等方面优于RGB基线。

📝 摘要（中文）

现有的视觉-语言-动作（VLA）模型主要依赖RGB感知，无法捕捉热信号等传统视觉传感器无法感知的模态。此外，端到端生成策略缺乏显式的安全约束，在遇到障碍物和训练分布之外的新场景时显得脆弱。为了解决这些局限性，我们提出了Safe-Night VLA，这是一个多模态操作框架，使机器人能够在非结构化环境中进行热感知操作时“看到”不可见的信息，同时强制执行严格的安全约束。具体来说，Safe-Night VLA将长波红外热感知集成到预训练的视觉-语言骨干网络中，从而实现基于热力学属性的语义推理。为了确保在分布外条件下安全执行，我们通过控制屏障函数引入了一个安全过滤器，该过滤器在策略执行期间提供确定性的工作空间约束。我们通过在Franka机械臂上的真实世界实验验证了我们的框架，引入了一种新的评估范式，包括温度条件操作、地下目标定位和反射消歧，同时在推理时保持约束执行。结果表明，Safe-Night VLA优于仅使用RGB的基线，并提供了经验证据，表明基础模型可以有效地利用非可见物理模态进行鲁棒操作。

🔬 方法详解

问题定义：现有视觉-语言-动作（VLA）模型主要依赖RGB图像作为输入，无法感知环境中的热信息，这限制了它们在光照条件差或需要感知物体温度等场景下的应用。此外，现有的端到端生成策略缺乏明确的安全约束，容易在遇到未知的障碍物或环境时发生碰撞或失败。

核心思路：Safe-Night VLA的核心思路是将长波红外热感知信息融入到VLA模型中，使机器人能够“看到”不可见的热信息，从而扩展其感知能力。同时，利用控制屏障函数（Control Barrier Functions, CBF）构建安全过滤器，在策略执行过程中强制执行工作空间约束，确保操作的安全性。

技术框架：Safe-Night VLA的整体框架包含以下几个主要模块：1) 多模态感知模块：将RGB图像和长波红外热图像作为输入，通过预训练的视觉-语言骨干网络提取特征。2) 语义推理模块：利用提取的特征进行语义推理，理解任务指令和环境信息。3) 策略生成模块：根据语义推理的结果生成操作策略。4) 安全过滤模块：利用控制屏障函数对生成的策略进行安全过滤，确保操作满足预设的安全约束。

关键创新：Safe-Night VLA的关键创新在于：1) 首次将长波红外热感知融入到VLA模型中，扩展了机器人的感知能力。2) 利用控制屏障函数构建安全过滤器，实现了对操作过程的确定性安全约束。3) 提出了温度条件操作、地下目标定位和反射消歧等新的评估范式，更全面地评估了VLA模型的性能。

关键设计：在多模态感知模块中，论文采用了预训练的视觉-语言骨干网络，例如CLIP，并对其进行微调，以适应RGB图像和长波红外热图像的融合。在安全过滤模块中，控制屏障函数的设计需要根据具体的机器人和任务进行调整，以确保安全约束的有效性。具体的参数设置和网络结构等细节在论文中进行了详细描述。

🖼️ 关键图片

📊 实验亮点

Safe-Night VLA在真实世界的实验中表现出色，在温度条件操作、地下目标定位和反射消歧等任务中均优于RGB-only基线。实验结果表明，Safe-Night VLA能够有效地利用非可见物理模态进行鲁棒操作，验证了基础模型在多模态感知方面的潜力。具体性能提升数据在论文中有详细展示。

🎯 应用场景

Safe-Night VLA在夜间搜救、消防救援、工业检测等领域具有广泛的应用前景。例如，消防员可以利用该技术在浓烟环境中定位火源和被困人员；工业检测人员可以利用该技术检测设备的温度异常，预防安全事故。该研究有望推动机器人技术在复杂环境下的应用，提升机器人的自主性和安全性。

📄 摘要（原文）

Current Vision-Language-Action (VLA) models rely primarily on RGB perception, preventing them from capturing modalities such as thermal signals that are imperceptible to conventional visual sensors. Moreover, end-to-end generative policies lack explicit safety constraints, making them fragile when encountering obstacles and novel scenarios outside the training distribution. To address these limitations, we propose Safe-Night VLA, a multimodal manipulation framework that enables robots to see the unseen while enforcing rigorous safety constraints for thermal-aware manipulation in unstructured environments. Specifically, Safe-Night VLA integrates long-wave infrared thermal perception into a pre-trained vision-language backbone, enabling semantic reasoning grounded in thermodynamic properties. To ensure safe execution under out-of-distribution conditions, we incorporate a safety filter via control barrier functions, which provide deterministic workspace constraint enforcement during policy execution. We validate our framework through real-world experiments on a Franka manipulator, introducing a novel evaluation paradigm featuring temperature-conditioned manipulation, subsurface target localization, and reflection disambiguation, while maintaining constrained execution at inference time. Results demonstrate that Safe-Night VLA outperforms RGB-only baselines and provide empirical evidence that foundation models can effectively leverage non-visible physical modalities for robust manipulation.

Safe-Night VLA: Seeing the Unseen via Thermal-Perceptive Vision-Language-Action Models for Safety-Critical Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理