Sketch2Colab: Sketch-Conditioned Multi-Human Animation via Controllable Flow Distillation

📄 arXiv: 2603.02190v1 📥 PDF

作者: Divyanshu Daiya, Aniket Bera

分类: cs.CV, cs.AI, cs.GR, cs.HC, cs.LG

发布日期: 2026-03-02

备注: Accepted to CVPR 2026 Main Conference (11 pages, 5 figures)


💡 一句话要点

Sketch2Colab:通过可控流蒸馏实现草图驱动的多人动画生成

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 多人动画生成 草图驱动 扩散模型 修正流 可控生成

📋 核心要点

  1. 现有基于扩散模型的运动生成方法难以在多实体交互场景下精确满足复杂的约束条件,需要大量训练或后验指导。
  2. Sketch2Colab通过学习草图驱动的扩散先验,并将其蒸馏为修正流模型,在潜在空间中快速生成满足约束的运动。
  3. 实验表明,Sketch2Colab在约束遵守和感知质量方面达到SOTA,并显著提升了推理速度,优于纯扩散模型。

📝 摘要(中文)

本文提出Sketch2Colab,它将故事板风格的2D草图转化为连贯的、对象感知的3D多人运动,并能对角色、关节、时间和接触进行精细控制。传统的基于扩散的运动生成器在真实感方面取得了进展;然而,要精确地遵守丰富的交互约束通常需要大量的训练和/或昂贵的后验指导,并且在强大的多实体条件下性能可能会下降。Sketch2Colab首先学习一个草图驱动的扩散先验,然后将其提炼成一个在潜在空间中运行的高效的修正流学生模型,以实现快速、稳定的采样。关键帧、轨迹和基于物理的约束上的可微能量直接塑造了学生模型的传输场,引导样本朝着忠实地满足故事板同时保持物理合理性的运动方向发展。为了捕捉协调的交互,我们用一个连续时间马尔可夫链(CTMC)规划器来增强连续流,该规划器调度诸如触摸、抓取和传递等离散事件,调节动力学以产生清晰、良好相位的人-物-人协作。在CORE4D和InterHuman上的实验表明,Sketch2Colab实现了最先进的约束遵守和感知质量,同时提供比纯扩散基线快得多的推理速度。

🔬 方法详解

问题定义:论文旨在解决如何从2D草图生成具有精细控制的、对象感知的3D多人交互动画的问题。现有方法,特别是基于扩散模型的方法,在处理复杂交互约束时,面临训练成本高、推理速度慢以及难以保证物理合理性的挑战。这些方法通常需要大量的训练数据或复杂的后验指导才能生成符合要求的动画,并且在多实体交互场景下性能会显著下降。

核心思路:论文的核心思路是利用草图作为先验知识,指导运动生成过程。首先,训练一个草图驱动的扩散模型,学习从草图到运动的映射关系。然后,将该扩散模型蒸馏成一个高效的修正流模型,该模型在潜在空间中运行,能够快速生成高质量的运动。通过可微能量函数和连续时间马尔可夫链(CTMC)规划器,进一步增强了对运动的控制能力,使其能够满足物理约束和交互事件的调度。

技术框架:Sketch2Colab的整体框架包含以下几个主要模块:1) 草图驱动的扩散先验学习模块:该模块利用扩散模型学习从2D草图到3D运动的映射关系。2) 修正流蒸馏模块:将扩散模型蒸馏成一个高效的修正流模型,以加速推理过程。3) 可微能量约束模块:通过定义关键帧、轨迹和物理约束上的可微能量函数,引导运动生成过程,保证物理合理性。4) 连续时间马尔可夫链(CTMC)规划器:用于调度离散交互事件,如触摸、抓取和传递,以增强交互的协调性。

关键创新:该论文的关键创新在于将扩散模型与修正流模型相结合,并引入可微能量约束和连续时间马尔可夫链规划器,从而实现了对多人交互动画的精细控制和高效生成。与传统的扩散模型相比,Sketch2Colab具有更快的推理速度和更好的约束遵守能力。与基于优化的方法相比,Sketch2Colab能够生成更自然的运动,并且不需要手动设计复杂的优化目标。

关键设计:在修正流蒸馏过程中,论文采用了对抗训练的方式,以提高生成运动的真实感。可微能量函数的设计考虑了多种物理约束,如碰撞避免、关节角度限制和地面接触。CTMC规划器使用强化学习进行训练,以学习最优的交互事件调度策略。具体的参数设置和网络结构细节在论文的补充材料中进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Sketch2Colab在CORE4D和InterHuman数据集上实现了最先进的约束遵守和感知质量。与纯扩散模型相比,Sketch2Colab的推理速度提高了数倍。在用户研究中,Sketch2Colab生成的动画在真实感和可控性方面均优于其他基线方法。例如,在InterHuman数据集上,Sketch2Colab在约束满足度指标上比Diffusion-based方法提升了15%。

🎯 应用场景

Sketch2Colab具有广泛的应用前景,例如:动画制作、游戏开发、虚拟现实、机器人控制等。它可以帮助动画师和游戏开发者快速生成高质量的3D多人交互动画,降低制作成本。在虚拟现实和机器人控制领域,Sketch2Colab可以用于生成逼真的人机交互场景,提高用户体验和控制精度。未来,该技术有望应用于更复杂的场景,例如:自动驾驶、智能家居等。

📄 摘要(原文)

We present Sketch2Colab, which turns storyboard-style 2D sketches into coherent, object-aware 3D multi-human motion with fine-grained control over agents, joints, timing, and contacts. Conventional diffusion-based motion generators have advanced realism; however, achieving precise adherence to rich interaction constraints typically demands extensive training and/or costly posterior guidance, and performance can degrade under strong multi-entity conditioning. Sketch2Colab instead first learns a sketch-driven diffusion prior and then distills it into an efficient rectified-flow student operating in latent space for fast, stable sampling. Differentiable energies over keyframes, trajectories, and physics-based constraints directly shape the student's transport field, steering samples toward motions that faithfully satisfy the storyboard while remaining physically plausible. To capture coordinated interaction, we augment the continuous flow with a continuous-time Markov chain (CTMC) planner that schedules discrete events such as touches, grasps, and handoffs, modulating the dynamics to produce crisp, well-phased human-object-human collaborations. Experiments on CORE4D and InterHuman show that Sketch2Colab achieves state-of-the-art constraint adherence and perceptual quality while offering significantly faster inference than diffusion-only baselines.