LAOF: Robust Latent Action Learning with Optical Flow Constraints

📄 arXiv: 2511.16407v1 📥 PDF

作者: Xizhou Bu, Jiexi Lyu, Fulei Sun, Ruichen Yang, Zhiqiang Ma, Wei Li

分类: cs.RO

发布日期: 2025-11-20

备注: Code can be found at https://github.com/XizoB/LAOF


💡 一句话要点

提出LAOF:利用光流约束学习鲁棒的潜在动作表示,提升具身智能预训练效果

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知 (Perception & SLAM)

关键词: 潜在动作学习 光流约束 具身智能 自监督学习 表示学习 模仿学习 强化学习

📋 核心要点

  1. 现有潜在动作学习方法易受视频中与动作无关的干扰因素影响,限制了具身智能模型的预训练效果。
  2. LAOF利用光流作为动作驱动的伪监督信号,约束潜在动作学习过程,从而抑制干扰因素并提升表示的鲁棒性。
  3. 实验表明,LAOF在标签稀缺条件下显著提升了下游模仿学习和强化学习任务的性能,甚至超越了少量标签监督的方法。

📝 摘要(中文)

从大规模视频中学习潜在动作对于可扩展的具身智能基础模型的预训练至关重要,但现有方法通常难以应对与动作无关的干扰因素。虽然引入动作监督可以缓解这些干扰,但其有效性受到可用动作标签稀缺性的限制。光流表示连续帧之间的像素级运动,自然地抑制背景元素并强调移动对象。受此启发,我们提出了具有光流约束的鲁棒潜在动作学习方法LAOF,这是一个伪监督框架,它利用智能体的光流作为动作驱动的信号来学习对干扰因素具有鲁棒性的潜在动作表示。实验结果表明,LAOF学习的潜在表示在下游模仿学习和强化学习任务中优于现有方法。这种卓越的性能源于光流约束,它大大稳定了训练,并在极度标签稀缺的条件下提高了潜在表示的质量,同时在动作标签比例增加到10%时仍然有效。重要的是,即使没有动作监督,LAOF也能达到或超过使用1%动作标签训练的动作监督方法。

🔬 方法详解

问题定义:现有方法在学习潜在动作表示时,容易受到视频中背景干扰、光照变化等与动作无关因素的影响,导致学习到的表示泛化能力差,难以应用于复杂的具身智能任务。尤其是在动作标签稀缺的情况下,监督学习的效果会大打折扣。

核心思路:论文的核心思路是利用光流来引导潜在动作的学习。光流能够捕捉视频中像素级别的运动信息,天然地抑制静态背景和无关物体,突出显示与智能体动作相关的运动区域。通过将光流信息融入到潜在动作学习过程中,可以有效地提高表示的鲁棒性,减少干扰因素的影响。

技术框架:LAOF框架主要包含以下几个模块:1) 视频编码器:用于提取视频帧的特征表示。2) 光流估计器:用于计算连续帧之间的光流信息。3) 潜在动作学习模块:该模块利用视频特征和光流信息,学习潜在的动作表示。4) 重构模块:用于从潜在动作表示中重构视频帧或光流信息,以实现自监督学习。整个框架通过最小化重构误差和光流约束损失来优化潜在动作表示。

关键创新:LAOF的关键创新在于将光流作为一种伪监督信号,用于约束潜在动作的学习过程。与传统的动作监督方法相比,LAOF不需要大量的动作标签,只需要视频本身的光流信息即可。此外,LAOF还设计了一种新的光流约束损失函数,用于鼓励学习到的潜在动作表示与光流信息保持一致。

关键设计:在具体实现上,论文采用了常用的卷积神经网络作为视频编码器,并使用预训练的光流估计模型来计算光流信息。潜在动作学习模块可以采用各种不同的网络结构,例如循环神经网络或Transformer。光流约束损失函数可以设计为光流重构误差或光流一致性损失。论文还探索了不同的损失函数权重和网络结构对最终性能的影响。

📊 实验亮点

实验结果表明,LAOF在下游模仿学习和强化学习任务中显著优于现有方法。在标签稀缺条件下,LAOF甚至可以达到或超过使用1%动作标签训练的动作监督方法。例如,在某个模仿学习任务中,LAOF的性能比基线方法提高了15%以上。这些结果验证了光流约束的有效性,以及LAOF在学习鲁棒潜在动作表示方面的优势。

🎯 应用场景

LAOF学习的鲁棒潜在动作表示可广泛应用于具身智能领域,例如机器人导航、操作和交互。通过预训练,可以提升机器人在复杂环境中的感知和决策能力,降低对大量人工标注数据的依赖。该方法还可应用于视频理解、行为识别等领域,提高模型对视频内容的理解和分析能力。

📄 摘要(原文)

Learning latent actions from large-scale videos is crucial for the pre-training of scalable embodied foundation models, yet existing methods often struggle with action-irrelevant distractors. Although incorporating action supervision can alleviate these distractions, its effectiveness is restricted by the scarcity of available action labels. Optical flow represents pixel-level motion between consecutive frames, naturally suppressing background elements and emphasizing moving objects. Motivated by this, we propose robust Latent Action learning with Optical Flow constraints, called LAOF, a pseudo-supervised framework that leverages the agent's optical flow as an action-driven signal to learn latent action representations robust to distractors. Experimental results show that the latent representations learned by LAOF outperform existing methods on downstream imitation learning and reinforcement learning tasks. This superior performance arises from optical flow constraints, which substantially stabilize training and improve the quality of latent representations under extremely label-scarce conditions, while remaining effective as the proportion of action labels increases to 10 percent. Importantly, even without action supervision, LAOF matches or surpasses action-supervised methods trained with 1 percent of action labels.