CrowdVLA: Embodied Vision-Language-Action Agents for Context-Aware Crowd Simulation

📄 arXiv: 2604.05525v1 📥 PDF

作者: Juyeong Hwang, Seong-Eun Hong, Jinhyun Kim, JaeYoung Seon, Giljoo Nam, Hanyoung Jang, HyeongYeop Kang

分类: cs.GR

发布日期: 2026-04-07


💡 一句话要点

CrowdVLA:用于上下文感知人群模拟的具身视觉-语言-动作智能体

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人群模拟 具身智能 视觉语言动作 上下文感知 强化学习

📋 核心要点

  1. 现有方法在人群模拟中过度简化导航,忽略了行人对环境语义和社会规范的理解和推理。
  2. CrowdVLA 将行人建模为 VLA 智能体,使其能够从视觉和语言信息中感知环境,并进行后果感知的决策。
  3. 通过视觉监督、运动技能动作空间和探索式问答,CrowdVLA 实现了更具意图性和上下文感知的人群模拟。

📝 摘要(中文)

人群不仅仅是移动,更重要的是决策。人类导航本质上是上下文相关的:人们在行动之前会解读空间的意义、社会规范和潜在后果。人行道邀请行走,人行横道邀请穿行,而偏离行为则会根据紧迫性和安全性进行权衡。然而,大多数人群模拟方法将导航简化为几何和避碰,产生的运动看似合理,但很少具有意图性。我们提出了 CrowdVLA,一种新的人群模拟方法,它将每个行人建模为一个视觉-语言-动作(VLA)智能体。CrowdVLA 不重放记录的轨迹,而是使智能体能够从视觉观察和语言指令中解释场景语义和社会规范,并通过后果感知的推理来选择动作。CrowdVLA 通过以下方式解决了三个关键挑战——人群数据集中有限的以智能体为中心的监督、不稳定的逐帧控制以及成功偏见的数据集:(i)通过语义重建环境和预训练视觉-语言模型的低秩适应(LoRA)微调来实现以智能体为中心的视觉监督,(ii)一种运动技能动作空间,它桥接了符号决策和连续运动,以及(iii)基于探索的问答,通过模拟推演使智能体暴露于反事实行为及其结果。我们的结果将人群模拟从以运动为中心的合成转变为以感知驱动、后果感知的决策,从而使人群不仅能逼真地移动,而且能有意义地移动。

🔬 方法详解

问题定义:现有的人群模拟方法主要关注几何和避碰,缺乏对行人意图和上下文的建模,导致模拟结果缺乏真实感和意义。这些方法无法根据环境语义和社会规范进行决策,例如在人行道上行走,在人行横道上穿行等。此外,数据集的成功偏见和有限的智能体中心监督也限制了模型的学习能力。

核心思路:CrowdVLA 的核心思路是将行人建模为具有视觉、语言和动作能力的智能体。通过视觉感知和语言指令,智能体可以理解环境语义和社会规范。通过后果感知的推理,智能体可以选择合适的动作。这种方法将人群模拟从单纯的运动合成转变为基于感知的决策过程。

技术框架:CrowdVLA 的整体框架包括以下几个主要模块:1) 视觉感知模块:使用预训练的视觉-语言模型,通过 LoRA 微调,提取场景的视觉特征和语义信息。2) 语言理解模块:解析语言指令,例如导航目标或社会规范。3) 动作选择模块:基于视觉感知和语言理解,选择合适的运动技能动作。4) 模拟环境:用于模拟智能体的运动和交互,并评估动作的后果。5) 探索式问答模块:通过模拟推演,探索不同的动作及其后果,从而提高智能体的决策能力。

关键创新:CrowdVLA 的关键创新在于将视觉、语言和动作结合起来,实现上下文感知的人群模拟。与传统的基于规则或轨迹重放的方法不同,CrowdVLA 能够根据环境语义和社会规范进行决策。此外,探索式问答模块能够使智能体学习到反事实的知识,从而提高其鲁棒性和泛化能力。

关键设计:CrowdVLA 使用了 Low-Rank Adaptation (LoRA) 来微调预训练的视觉-语言模型,以适应人群模拟的任务。运动技能动作空间包括行走、停止、转向等基本动作,这些动作可以组合成更复杂的行为。探索式问答模块通过生成问题和答案,来引导智能体探索不同的动作及其后果。损失函数包括模仿学习损失和强化学习损失,用于训练智能体的决策能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CrowdVLA 通过引入视觉-语言-动作智能体,显著提高了人群模拟的真实性和意图性。实验结果表明,CrowdVLA 能够生成更符合社会规范和环境语义的行人行为。与传统的基于规则的方法相比,CrowdVLA 在各种评估指标上都取得了显著的提升。探索式问答模块有效地提高了智能体的鲁棒性和泛化能力。

🎯 应用场景

CrowdVLA 可应用于各种场景,例如城市规划、交通管理、机器人导航、游戏开发和虚拟现实。它可以用于评估不同交通方案对行人行为的影响,优化交通信号灯的设置,提高机器人在人群中的导航能力,以及创建更真实和沉浸式的虚拟环境。该研究的未来影响在于实现更智能、更安全和更高效的人群管理。

📄 摘要(原文)

Crowds do not merely move; they decide. Human navigation is inherently contextual: people interpret the meaning of space, social norms, and potential consequences before acting. Sidewalks invite walking, crosswalks invite crossing, and deviations are weighed against urgency and safety. Yet most crowd simulation methods reduce navigation to geometry and collision avoidance, producing motion that is plausible but rarely intentional. We introduce CrowdVLA, a new formulation of crowd simulation that models each pedestrian as a Vision-Language-Action (VLA) agent. Instead of replaying recorded trajectories, CrowdVLA enables agents to interpret scene semantics and social norms from visual observations and language instructions, and to select actions through consequence-aware reasoning. CrowdVLA addresses three key challenges-limited agent-centric supervision in crowd datasets, unstable per-frame control, and success-biased datasets-through: (i) agent-centric visual supervision via semantically reconstructed environments and Low-Rank Adaptation (LoRA) fine-tuning of a pretrained vision-language model, (ii) a motion skill action space that bridges symbolic decision making and continuous locomotion, and (iii) exploration-based question answering that exposes agents to counterfactual actions and their outcomes through simulation rollouts. Our results shift crowd simulation from motion-centric synthesis toward perception-driven, consequence-aware decision making, enabling crowds that move not just realistically, but meaningfully.