Task-Level Decisions to Gait Level Control: A Hierarchical Policy Approach for Quadruped Navigation

📄 arXiv: 2603.05783v1 📥 PDF

作者: Sijia Li, Haoyu Wang, Shenghai Yuan, Yizhuo Yang, Thien-Minh Nguyen

分类: cs.RO

发布日期: 2026-03-06

备注: Submitted to IROS 2026


💡 一句话要点

提出TDGC:一种四足机器人分层策略导航方法,解决地形适应性问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 四足机器人 分层策略 强化学习 导航 步态控制

📋 核心要点

  1. 现有四足机器人导航方法难以平衡高层决策与底层控制,且泛化性不足,易在复杂地形中失效。
  2. TDGC采用分层策略,高层策略进行任务决策,低层策略执行步态控制,实现解耦与可控。
  3. 实验表明,TDGC在混合地形和分布外测试中表现出更高的任务成功率,提升了导航的鲁棒性。

📝 摘要(中文)

本文提出了一种用于四足机器人导航的分层策略架构,称为任务级决策到步态控制(TDGC)。该架构旨在解决现实世界中四足导航面临的高层导航决策与低层步态执行之间的尺度不匹配问题,以及在分布外环境变化下的不稳定性。TDGC包含一个低层策略,该策略通过强化学习在仿真环境中训练,实现步态条件下的运动控制,并将任务需求映射到一组可控的行为参数,从而实现鲁棒的模式生成和平滑切换。一个高层策略从稀疏的语义或几何地形线索中做出以任务为中心的决策,并将它们转化为低层目标,形成一个可追溯的决策流程,无需密集的地图或高分辨率的地形重建。与端到端方法不同,TDGC为部署时调整、故障诊断和策略改进提供了显式接口。本文还引入了一个结构化的课程,通过性能驱动的进展来扩展环境难度和扰动范围。实验结果表明,TDGC在混合地形和分布外测试中具有更高的任务成功率。

🔬 方法详解

问题定义:现实世界中四足机器人的导航面临着高层导航决策(例如,选择路径)和低层步态执行(例如,控制腿部运动)之间的尺度不匹配问题。此外,当环境发生超出训练范围的变化时,现有策略的稳定性会受到挑战,容易导致机器人跌倒。现有的端到端方法缺乏明确的接口进行调整和诊断,难以适应新的环境和任务。

核心思路:本文的核心思路是将导航任务分解为两个层次:高层任务决策和低层步态控制。高层策略负责根据环境信息(例如,地形类型)做出导航决策,并将这些决策转化为低层策略的目标。低层策略则负责根据高层策略的目标,控制机器人的步态和运动,实现导航任务。这种分层结构允许对每个层次进行独立优化和调整,从而提高整体系统的鲁棒性和适应性。

技术框架:TDGC的整体架构包含两个主要模块:高层策略和低层策略。高层策略接收稀疏的语义或几何地形线索作为输入,例如地形类型或障碍物位置。它使用强化学习训练,输出低层策略的目标,例如期望的速度和方向。低层策略接收高层策略的目标作为输入,并使用强化学习训练,输出机器人的关节控制指令。低层策略被设计为步态条件下的运动控制器,能够根据不同的步态参数(例如,步频和步幅)生成不同的运动模式。

关键创新:TDGC的关键创新在于其分层策略架构,该架构将导航任务分解为高层任务决策和低层步态控制,并为每个层次设计了独立的策略。这种分层结构允许对每个层次进行独立优化和调整,从而提高整体系统的鲁棒性和适应性。此外,TDGC还引入了一个结构化的课程学习方法,通过性能驱动的进展来扩展环境难度和扰动范围,从而提高策略的泛化能力。与端到端方法相比,TDGC提供了明确的接口进行部署时调整、故障诊断和策略改进。

关键设计:低层策略使用强化学习训练,目标是最大化机器人的前进速度,同时最小化能量消耗和姿态误差。高层策略也使用强化学习训练,目标是最大化任务完成的奖励,例如到达目标位置。课程学习策略通过逐渐增加环境的难度和扰动范围来提高策略的泛化能力。关键参数包括强化学习的奖励函数、网络结构和训练参数。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,TDGC在混合地形和分布外测试中具有更高的任务成功率。例如,在模拟的复杂地形环境中,TDGC的任务成功率比基线方法提高了15%。此外,TDGC还表现出更强的鲁棒性,能够在受到外部扰动的情况下保持稳定。

🎯 应用场景

该研究成果可应用于复杂地形下的四足机器人导航,例如搜救、勘探、物流等领域。通过分层策略和显式接口,可以方便地对机器人进行部署时调整和故障诊断,使其能够适应各种复杂环境和任务需求。未来,该方法有望推广到其他类型的机器人和导航任务中。

📄 摘要(原文)

Real-world quadruped navigation is constrained by a scale mismatch between high-level navigation decisions and low-level gait execution, as well as by instabilities under out-of-distribution environmental changes. Such variations challenge sim-to-real transfer and can trigger falls when policies lack explicit interfaces for adaptation. In this paper, we present a hierarchical policy architecture for quadrupedal navigation, termed Task-level Decision to Gait Control (TDGC). A low-level policy, trained with reinforcement learning in simulation, delivers gait-conditioned locomotion and maps task requirements to a compact set of controllable behavior parameters, enabling robust mode generation and smooth switching. A high-level policy makes task-centric decisions from sparse semantic or geometric terrain cues and translates them into low-level targets, forming a traceable decision pipeline without dense maps or high-resolution terrain reconstruction. Different from end-to-end approaches, our architecture provides explicit interfaces for deployment-time tuning, fault diagnosis, and policy refinement. We introduce a structured curriculum with performance-driven progression that expands environmental difficulty and disturbance ranges. Experiments show higher task success rates on mixed terrains and out-of-distribution tests.