Cognition to Control - Multi-Agent Learning for Human-Humanoid Collaborative Transport

作者: Hao Zhang, Ding Zhao, H. Eric Tseng

分类: cs.RO, cs.AI

发布日期: 2026-03-04

💡 一句话要点

提出认知到控制(C2C)框架，解决人-人形机器人协作搬运中的长期规划与稳定控制问题

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 人机协作 多智能体强化学习 视觉语言模型 具身智能 运动控制 认知推理 机器人

📋 核心要点

现有的人机协作系统侧重于反应式行为，缺乏对长期规划和稳定控制的有效整合，尤其是在多智能体协作场景下。
C2C框架通过显式的三层结构，将基于视觉语言模型的认知推理、长期技能规划和全身运动控制相结合，实现人机协作。
实验结果表明，C2C框架在协作操作任务中，相较于传统方法，展现出更高的成功率、鲁棒性和稳定的协调能力。

📝 摘要（中文）

有效的人机协作(HRC)需要将高层意图转化为接触稳定的全身运动，同时持续适应人类伙伴。许多视觉-语言-动作(VLA)系统学习从观察和指令到动作的端到端映射，但它们通常强调反应式(类似系统1)行为，并且对如何将持续的系统2式审议与可靠的、低延迟的连续控制相结合的描述不足。这种差距在多智能体HRC中尤为明显，在这种情况下，长期协调决策和物理执行必须在接触、可行性和安全约束下共同演进。我们通过认知到控制(C2C)来解决这一限制，C2C是一个三层层次结构，明确了审议到控制的路径：(i)一个基于VLM的基础层，维护持久的场景引用并推断具身感知的可供性和约束；(ii)一个审议技能/协调层——系统2的核心——通过去中心化MARL优化长期技能选择和序列，该MARL被建模为具有共享势能编码任务进度的马尔可夫势博弈；(iii)一个全身控制层，以高频率执行所选技能，同时强制执行运动学/动力学可行性和接触稳定性。审议层被实现为相对于标称控制器的残差策略，在没有明确角色分配的情况下内化伙伴动态。在协作操作任务上的实验表明，与单智能体和端到端基线相比，具有更高的成功率和鲁棒性，以及稳定的协调和涌现的领导者-跟随者行为。

🔬 方法详解

问题定义：论文旨在解决人-人形机器人协作搬运任务中，如何将高层认知推理与底层稳定控制有效结合的问题。现有方法，特别是端到端的视觉-语言-动作系统，往往侧重于快速反应，忽略了长期规划和对物理约束的建模，导致协作效率和鲁棒性不足。

核心思路：论文的核心思路是将认知推理、长期规划和底层控制解耦，构建一个三层层次化的“认知到控制”(C2C)框架。通过显式地建模认知过程，并将其与运动控制相结合，实现更智能、更鲁棒的人机协作。

技术框架：C2C框架包含三个主要层： 1. VLM基础层：利用视觉语言模型(VLM)理解场景，提取场景中的对象和关系，并推断出具身感知的可供性和约束。 2. 审议技能/协调层：作为系统2的核心，使用去中心化的多智能体强化学习(MARL)进行长期技能选择和序列规划。该层将人机协作建模为马尔可夫势博弈，通过共享势能函数编码任务进度。 3. 全身控制层：以高频率执行选定的技能，同时保证运动学/动力学可行性和接触稳定性。

关键创新：C2C框架的关键创新在于其明确的层次化结构，将认知推理、长期规划和底层控制分离，并使用MARL进行人机协作的建模。这种结构使得系统能够更好地处理复杂的人机协作任务，并具有更强的鲁棒性和泛化能力。此外，使用残差策略学习审议层，可以内化伙伴动态，无需显式角色分配。

关键设计：审议层使用去中心化MARL，奖励函数设计为共享势能函数，鼓励智能体之间的协作。全身控制层采用现有的运动控制算法，保证运动的稳定性和可行性。残差策略相对于标称控制器，学习人机协作中的偏差，从而实现更灵活的控制。

🖼️ 关键图片

📊 实验亮点

实验结果表明，C2C框架在协作操作任务中，相较于单智能体和端到端基线，具有更高的成功率和鲁棒性。具体而言，C2C框架能够实现稳定的协调和涌现的领导者-跟随者行为，表明其在复杂人机协作任务中的优越性。论文未提供具体的性能数据和提升幅度，但强调了C2C框架在定性上的优势。

🎯 应用场景

该研究成果可应用于各种人机协作场景，例如：智能制造中的人机协同装配、医疗康复中的辅助机器人、以及家庭服务机器人等。通过将认知推理与运动控制相结合，可以提高人机协作的效率、安全性和舒适性，实现更智能、更人性化的机器人应用。

📄 摘要（原文）

Effective human-robot collaboration (HRC) requires translating high-level intent into contact-stable whole-body motion while continuously adapting to a human partner. Many vision-language-action (VLA) systems learn end-to-end mappings from observations and instructions to actions, but they often emphasize reactive (System 1-like) behavior and leave under-specified how sustained System 2-style deliberation can be integrated with reliable, low-latency continuous control. This gap is acute in multi-agent HRC, where long-horizon coordination decisions and physical execution must co-evolve under contact, feasibility, and safety constraints. We address this limitation with cognition-to-control (C2C), a three-layer hierarchy that makes the deliberation-to-control pathway explicit: (i) a VLM-based grounding layer that maintains persistent scene referents and infers embodiment-aware affordances/constraints; (ii) a deliberative skill/coordination layer-the System 2 core-that optimizes long-horizon skill choices and sequences under human-robot coupling via decentralized MARL cast as a Markov potential game with a shared potential encoding task progress; and (iii) a whole-body control layer that executes the selected skills at high frequency while enforcing kinematic/dynamic feasibility and contact stability. The deliberative layer is realized as a residual policy relative to a nominal controller, internalizing partner dynamics without explicit role assignment. Experiments on collaborative manipulation tasks show higher success and robustness than single-agent and end-to-end baselines, with stable coordination and emergent leader-follower behaviors.

Cognition to Control - Multi-Agent Learning for Human-Humanoid Collaborative Transport

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理