Cognition to Control - Multi-Agent Learning for Human-Humanoid Collaborative Transport
作者: Hao Zhang, Ding Zhao, H. Eric Tseng
分类: cs.RO, cs.AI
发布日期: 2026-03-04
💡 一句话要点
提出认知到控制(C2C)框架,解决人-人形机器人协作搬运中的长期规划与稳定控制问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人机协作 多智能体强化学习 视觉语言模型 具身智能 运动控制 认知推理 机器人
📋 核心要点
- 现有的人机协作系统侧重于反应式行为,缺乏对长期规划和稳定控制的有效整合,尤其是在多智能体协作场景下。
- C2C框架通过显式的三层结构,将基于视觉语言模型的认知推理、长期技能规划和全身运动控制相结合,实现人机协作。
- 实验结果表明,C2C框架在协作操作任务中,相较于传统方法,展现出更高的成功率、鲁棒性和稳定的协调能力。
📝 摘要(中文)
有效的人机协作(HRC)需要将高层意图转化为接触稳定的全身运动,同时持续适应人类伙伴。许多视觉-语言-动作(VLA)系统学习从观察和指令到动作的端到端映射,但它们通常强调反应式(类似系统1)行为,并且对如何将持续的系统2式审议与可靠的、低延迟的连续控制相结合的描述不足。这种差距在多智能体HRC中尤为明显,在这种情况下,长期协调决策和物理执行必须在接触、可行性和安全约束下共同演进。我们通过认知到控制(C2C)来解决这一限制,C2C是一个三层层次结构,明确了审议到控制的路径:(i)一个基于VLM的基础层,维护持久的场景引用并推断具身感知的可供性和约束;(ii)一个审议技能/协调层——系统2的核心——通过去中心化MARL优化长期技能选择和序列,该MARL被建模为具有共享势能编码任务进度的马尔可夫势博弈;(iii)一个全身控制层,以高频率执行所选技能,同时强制执行运动学/动力学可行性和接触稳定性。审议层被实现为相对于标称控制器的残差策略,在没有明确角色分配的情况下内化伙伴动态。在协作操作任务上的实验表明,与单智能体和端到端基线相比,具有更高的成功率和鲁棒性,以及稳定的协调和涌现的领导者-跟随者行为。
🔬 方法详解
问题定义:论文旨在解决人-人形机器人协作搬运任务中,如何将高层认知推理与底层稳定控制有效结合的问题。现有方法,特别是端到端的视觉-语言-动作系统,往往侧重于快速反应,忽略了长期规划和对物理约束的建模,导致协作效率和鲁棒性不足。
核心思路:论文的核心思路是将认知推理、长期规划和底层控制解耦,构建一个三层层次化的“认知到控制”(C2C)框架。通过显式地建模认知过程,并将其与运动控制相结合,实现更智能、更鲁棒的人机协作。
技术框架:C2C框架包含三个主要层: 1. VLM基础层:利用视觉语言模型(VLM)理解场景,提取场景中的对象和关系,并推断出具身感知的可供性和约束。 2. 审议技能/协调层:作为系统2的核心,使用去中心化的多智能体强化学习(MARL)进行长期技能选择和序列规划。该层将人机协作建模为马尔可夫势博弈,通过共享势能函数编码任务进度。 3. 全身控制层:以高频率执行选定的技能,同时保证运动学/动力学可行性和接触稳定性。
关键创新:C2C框架的关键创新在于其明确的层次化结构,将认知推理、长期规划和底层控制分离,并使用MARL进行人机协作的建模。这种结构使得系统能够更好地处理复杂的人机协作任务,并具有更强的鲁棒性和泛化能力。此外,使用残差策略学习审议层,可以内化伙伴动态,无需显式角色分配。
关键设计:审议层使用去中心化MARL,奖励函数设计为共享势能函数,鼓励智能体之间的协作。全身控制层采用现有的运动控制算法,保证运动的稳定性和可行性。残差策略相对于标称控制器,学习人机协作中的偏差,从而实现更灵活的控制。
🖼️ 关键图片
📊 实验亮点
实验结果表明,C2C框架在协作操作任务中,相较于单智能体和端到端基线,具有更高的成功率和鲁棒性。具体而言,C2C框架能够实现稳定的协调和涌现的领导者-跟随者行为,表明其在复杂人机协作任务中的优越性。论文未提供具体的性能数据和提升幅度,但强调了C2C框架在定性上的优势。
🎯 应用场景
该研究成果可应用于各种人机协作场景,例如:智能制造中的人机协同装配、医疗康复中的辅助机器人、以及家庭服务机器人等。通过将认知推理与运动控制相结合,可以提高人机协作的效率、安全性和舒适性,实现更智能、更人性化的机器人应用。
📄 摘要(原文)
Effective human-robot collaboration (HRC) requires translating high-level intent into contact-stable whole-body motion while continuously adapting to a human partner. Many vision-language-action (VLA) systems learn end-to-end mappings from observations and instructions to actions, but they often emphasize reactive (System 1-like) behavior and leave under-specified how sustained System 2-style deliberation can be integrated with reliable, low-latency continuous control. This gap is acute in multi-agent HRC, where long-horizon coordination decisions and physical execution must co-evolve under contact, feasibility, and safety constraints. We address this limitation with cognition-to-control (C2C), a three-layer hierarchy that makes the deliberation-to-control pathway explicit: (i) a VLM-based grounding layer that maintains persistent scene referents and infers embodiment-aware affordances/constraints; (ii) a deliberative skill/coordination layer-the System 2 core-that optimizes long-horizon skill choices and sequences under human-robot coupling via decentralized MARL cast as a Markov potential game with a shared potential encoding task progress; and (iii) a whole-body control layer that executes the selected skills at high frequency while enforcing kinematic/dynamic feasibility and contact stability. The deliberative layer is realized as a residual policy relative to a nominal controller, internalizing partner dynamics without explicit role assignment. Experiments on collaborative manipulation tasks show higher success and robustness than single-agent and end-to-end baselines, with stable coordination and emergent leader-follower behaviors.