Direct Contact-Tolerant Motion Planning With Vision Language Models

作者: He Li, Jian Sun, Chengyang Li, Guoliang Li, Qiyu Ruan, Shuai Wang, Chengzhong Xu

分类: cs.RO

发布日期: 2026-03-05

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于视觉语言模型的直接接触容忍运动规划方法，提升复杂环境导航能力

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱四：生成式动作 (Generative Motion)

关键词: 接触容忍运动规划 视觉语言模型 机器人导航 点云处理 深度学习

📋 核心要点

现有接触容忍运动规划方法依赖间接空间表示，精度受限且难以适应环境变化。
提出直接接触容忍规划器，利用视觉语言模型进行接触推理，并指导导航。
实验表明，该方法在复杂环境中导航性能优于现有方法，实现了鲁棒高效的运动规划。

📝 摘要（中文）

本文提出了一种直接接触容忍(DCT)规划器，旨在解决杂乱环境中机器人导航时需要容忍与可移动或可变形物体接触的问题。现有接触容忍运动规划(CTMP)方法依赖于间接空间表示，导致不准确且缺乏对环境不确定性的适应性。DCT将视觉语言模型(VLM)集成到直接点感知和导航中，包含两个关键组件：VLM点云分割器(VPP)，利用VLM在图像空间中执行接触容忍推理，缓存推理掩码，使用里程计在帧间传播它们，并将它们投影到当前扫描以生成接触感知点云；VPP引导导航(VGN)，将CTMP公式化为直接接触感知点云约束下的感知到控制优化问题，并通过专门的深度神经网络(DNN)解决。在Isaac Sim和真实的类汽车机器人上的实验表明，DCT在具有可移动障碍物的杂乱环境中实现了鲁棒和高效的导航，优于代表性的基线方法。

🔬 方法详解

问题定义：现有接触容忍运动规划方法主要依赖于预先构建的地图或障碍物集合等间接空间表示。这些方法存在两个主要痛点：一是间接表示可能不够精确，无法准确描述环境中的可移动或可变形物体；二是缺乏对环境不确定性的适应性，难以应对动态变化的环境。

核心思路：本文的核心思路是将视觉语言模型(VLM)直接融入到机器人的感知和导航过程中，实现端到端的接触容忍运动规划。通过VLM对图像进行语义理解，识别出可以接触的物体，并将其信息融入到点云地图中，从而指导机器人的运动规划。

技术框架：DCT规划器的整体框架包含两个主要模块：VLM点云分割器(VPP)和VPP引导导航(VGN)。VPP首先利用VLM在图像空间中进行接触容忍推理，生成推理掩码。然后，利用里程计信息将这些掩码在帧间传播，并将它们投影到当前扫描的点云上，生成一个接触感知的点云。VGN则将CTMP问题建模为一个在直接接触感知点云约束下的感知到控制优化问题，并通过一个专门设计的深度神经网络(DNN)来求解。

关键创新：该方法最重要的技术创新在于将视觉语言模型(VLM)直接应用于接触容忍运动规划。与传统的基于几何或规则的方法不同，VLM能够利用其强大的语义理解能力，识别出可以接触的物体，并将其信息融入到运动规划过程中。这种方法能够更好地应对环境的不确定性，并提高运动规划的效率和鲁棒性。

关键设计：VPP模块的关键设计包括：如何选择合适的VLM模型、如何设计推理提示词、如何有效地将图像空间的推理结果投影到三维点云空间。VGN模块的关键设计包括：如何设计深度神经网络的结构、如何定义损失函数以鼓励接触容忍行为、如何平衡规划的效率和安全性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DCT规划器在模拟环境和真实机器人平台上均表现出色。在包含可移动障碍物的复杂环境中，DCT能够实现鲁棒且高效的导航，显著优于现有的基线方法。具体而言，DCT在导航成功率、路径长度和规划时间等方面均取得了显著提升，证明了其在接触容忍运动规划方面的优势。

🎯 应用场景

该研究成果可广泛应用于机器人需要在复杂、拥挤环境中进行导航的场景，例如：仓库物流、家庭服务、自动驾驶等。通过提高机器人对环境的感知和适应能力，使其能够在与可移动物体接触的情况下安全高效地完成任务，具有重要的实际应用价值和商业前景。

📄 摘要（原文）

Navigation in cluttered environments often requires robots to tolerate contact with movable or deformable objects to maintain efficiency. Existing contact-tolerant motion planning (CTMP) methods rely on indirect spatial representations (e.g., prebuilt map, obstacle set), resulting in inaccuracies and a lack of adaptiveness to environmental uncertainties. To address this issue, we propose a direct contact-tolerant (DCT) planner, which integrates vision-language models (VLMs) into direct point perception and navigation, including two key components. The first one is VLM point cloud partitioner (VPP), which performs contact-tolerance reasoning in image space using VLM, caches inference masks, propagates them across frames using odometry, and projects them onto the current scan to generate a contact-aware point cloud. The second innovation is VPP guided navigation (VGN), which formulates CTMP as a perception-to-control optimization problem under direct contact-aware point cloud constraints, which is further solved by a specialized deep neural network (DNN). We implement DCT in Isaac Sim and a real car-like robot, demonstrating that DCT achieves robust and efficient navigation in cluttered environments with movable obstacles, outperforming representative baselines across diverse metrics. The code is available at: https://github.com/ChrisLeeUM/DCT.

Direct Contact-Tolerant Motion Planning With Vision Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理