DreamToNav: Generalizable Navigation for Robots via Generative Video Planning
作者: Valerii Serpiva, Jeffrin Sam, Chidera Simon, Hajira Amjad, Iana Zhura, Artem Lykov, Dzmitry Tsetserukou
分类: cs.RO
发布日期: 2026-03-06
备注: Submitted to conference
💡 一句话要点
DreamToNav:基于生成视频规划的通用机器人导航框架
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人导航 生成视频模型 自然语言交互 视觉规划 自主机器人
📋 核心要点
- 现有机器人导航方法依赖于预定义的航点或复杂的任务特定工程,缺乏通用性和人机交互的直观性。
- DreamToNav利用生成视频模型,将自然语言指令转化为机器人可执行的运动轨迹,实现视觉“梦想”式的规划。
- 实验结果表明,DreamToNav在轮式和四足机器人上均取得了良好的导航性能,成功率达到76.7%,误差控制在合理范围内。
📝 摘要(中文)
DreamToNav是一个新颖的自主机器人框架,它利用生成视频模型来实现直观的人机交互控制。该系统不依赖于固定的航点导航,而是接受自然语言提示(例如“小心地跟随那个人”),并将这些提示转化为可执行的运动。首先,系统使用Qwen 2.5-VL-7B-Instruct将模糊的用户指令细化为精确的视觉描述。然后,这些描述作为NVIDIA Cosmos 2.5(一种先进的视频基础模型)的条件,合成机器人执行任务的物理上一致的视频序列。从这个合成视频中,我们通过视觉姿态估计、机器人检测和轨迹恢复来提取有效的运动学路径。通过将视频生成视为规划引擎,DreamToNav允许机器人在执行复杂行为之前进行视觉“梦想”,从而提供了一个统一的框架,用于避障和目标导向导航,而无需针对特定任务进行工程设计。我们在轮式移动机器人和四足机器人的室内导航任务中评估了该方法。DreamToNav的成功率为76.7%,最终目标误差通常在0.05-0.10米以内,轨迹跟踪误差低于0.15米。这些结果表明,从生成视频预测中提取的轨迹可以在不同的运动平台上可靠地在物理机器人上执行。
🔬 方法详解
问题定义:现有机器人导航方法通常需要精确的地图信息或预定义的航点,难以处理复杂或动态的环境。此外,用户与机器人的交互方式不够直观,需要专业的编程知识。因此,如何实现通用、直观的机器人导航是一个挑战。现有方法在泛化性和易用性方面存在痛点。
核心思路:DreamToNav的核心思路是将视频生成模型作为机器人的规划引擎。通过将自然语言指令转化为视觉描述,并以此为条件生成机器人执行任务的视频,从而让机器人在“梦想”中规划路径。这种方法避免了对环境的精确建模,并允许用户通过自然语言进行交互。
技术框架:DreamToNav的整体框架包含以下几个主要模块:1) 自然语言指令处理模块(Qwen 2.5-VL-7B-Instruct),用于将用户指令转化为视觉描述;2) 视频生成模块(NVIDIA Cosmos 2.5),用于根据视觉描述生成机器人执行任务的视频;3) 轨迹提取模块,用于从生成的视频中提取机器人的运动轨迹;4) 机器人控制模块,用于控制机器人按照提取的轨迹运动。
关键创新:DreamToNav的关键创新在于将生成视频模型应用于机器人导航。通过视频生成,机器人可以“预见”自己的行为,从而进行规划。这种方法与传统的基于规则或优化的导航方法有本质区别,因为它不需要对环境进行精确建模,而是通过学习大量视频数据来获得泛化能力。
关键设计:Qwen 2.5-VL-7B-Instruct模型用于将自然语言指令转化为视觉描述,例如将“跟随那个人”转化为“机器人跟随一个穿着红色衣服的人”。NVIDIA Cosmos 2.5模型使用扩散模型生成视频,通过调整prompt来控制生成视频的内容。轨迹提取模块使用视觉姿态估计和机器人检测技术,从视频中提取机器人的位置信息,并使用轨迹平滑算法来生成平滑的运动轨迹。
🖼️ 关键图片
📊 实验亮点
DreamToNav在室内导航任务中取得了76.7%的成功率,最终目标误差在0.05-0.10米以内,轨迹跟踪误差低于0.15米。这些结果表明,DreamToNav可以有效地在物理机器人上执行从生成视频预测中提取的轨迹。该方法在轮式和四足机器人上均取得了良好的效果,证明了其通用性。
🎯 应用场景
DreamToNav具有广泛的应用前景,例如家庭服务机器人、物流机器人、安防巡逻机器人等。该技术可以使机器人更容易理解人类指令,并在复杂环境中自主导航。未来,DreamToNav可以与其他AI技术结合,例如强化学习,以进一步提高机器人的智能水平。
📄 摘要(原文)
We present DreamToNav, a novel autonomous robot framework that uses generative video models to enable intuitive, human-in-the-loop control. Instead of relying on rigid waypoint navigation, users provide natural language prompts (e.g. ``Follow the person carefully''), which the system translates into executable motion. Our pipeline first employs Qwen 2.5-VL-7B-Instruct to refine vague user instructions into precise visual descriptions. These descriptions condition NVIDIA Cosmos 2.5, a state-of-the-art video foundation model, to synthesize a physically consistent video sequence of the robot performing the task. From this synthetic video, we extract a valid kinematic path using visual pose estimation, robot detection and trajectory recovery. By treating video generation as a planning engine, DreamToNav allows robots to visually "dream" complex behaviors before executing them, providing a unified framework for obstacle avoidance and goal-directed navigation without task-specific engineering. We evaluate the approach on both a wheeled mobile robot and a quadruped robot in indoor navigation tasks. DreamToNav achieves a success rate of 76.7%, with final goal errors typically within 0.05-0.10 m and trajectory tracking errors below 0.15 m. These results demonstrate that trajectories extracted from generative video predictions can be reliably executed on physical robots across different locomotion platforms.