MVR: Multi-view Video Reward Shaping for Reinforcement Learning

📄 arXiv: 2603.01694v1 📥 PDF

作者: Lirui Luo, Guoxi Zhang, Hongming Xu, Yaodong Yang, Cong Fang, Qing Li

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-03-02

备注: ICLR 2026


💡 一句话要点

提出多视角视频奖励塑造(MVR)框架,提升强化学习在复杂运动任务中的性能。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 奖励塑造 多视角视频 视觉语言模型 机器人控制

📋 核心要点

  1. 现有基于视觉-语言模型的奖励增强方法依赖静态图像,难以处理复杂动态运动任务,且单视角存在遮挡问题。
  2. MVR框架利用多视角视频信息,通过预训练VLM学习状态相关性函数,从而更准确地评估状态与目标任务的相关性。
  3. 实验表明,MVR在人形运动和物体操控等复杂任务中表现出色,并通过消融实验验证了各个设计选择的有效性。

📝 摘要(中文)

本文提出了一种多视角视频奖励塑造(MVR)框架,旨在解决强化学习在复杂任务中奖励设计的问题。现有方法通常使用视觉-语言模型(VLMs)产生的图像-文本相似度来增强奖励,但这种方法依赖于静态图像,难以处理涉及复杂动态运动的任务,且单一视角可能遮挡关键行为。MVR利用多视角视频捕捉状态相关性,并使用预训练的VLM学习状态相关性函数,减轻了图像方法对特定姿势的偏见。此外,本文还引入了一种状态相关的奖励塑造公式,整合了任务特定奖励和VLM指导,自动降低VLM指导的影响。在HumanoidBench的人形运动任务和MetaWorld的操控任务上的实验验证了该框架的有效性。

🔬 方法详解

问题定义:现有基于视觉-语言模型的强化学习方法在处理复杂运动任务时存在局限性。它们通常依赖于单张静态图像来评估状态与目标任务的相关性,这忽略了运动的动态特性,并且容易受到视角遮挡的影响。此外,直接将VLM的相似度分数线性添加到任务奖励中,可能会改变最优策略。

核心思路:MVR的核心思路是利用多视角视频信息来更全面地捕捉状态与目标任务的相关性。通过使用视频而非单张图像,可以更好地建模运动的动态特性。同时,采用多视角可以减少视角遮挡的影响,提供更全面的状态信息。此外,MVR采用状态相关的奖励塑造方法,能够根据agent的学习进度动态调整VLM指导的权重,避免过度依赖VLM指导。

技术框架:MVR框架主要包含以下几个模块:1) 多视角视频采集模块,从多个视角捕捉agent的状态信息;2) 预训练VLM模块,用于计算视频片段与目标任务描述之间的相似度;3) 状态相关性函数学习模块,利用VLM的相似度分数学习一个状态相关性函数,该函数能够评估当前状态与目标任务的相关程度;4) 奖励塑造模块,将任务特定奖励和VLM指导相结合,生成最终的奖励信号。该模块采用状态相关的权重,动态调整VLM指导的权重。

关键创新:MVR的关键创新在于以下几个方面:1) 引入多视角视频信息,更全面地捕捉状态信息;2) 学习状态相关性函数,减轻了对特定姿势的偏见;3) 采用状态相关的奖励塑造方法,动态调整VLM指导的权重,避免过度依赖VLM指导。

关键设计:MVR的关键设计包括:1) 使用预训练的CLIP模型作为VLM,提取视频片段和文本描述的特征;2) 使用Transformer网络学习状态相关性函数,输入为VLM提取的视频特征,输出为状态相关性得分;3) 奖励塑造函数采用指数衰减的形式,随着agent的学习,VLM指导的权重逐渐降低。具体来说,奖励函数可以表示为:r(s, a) = r_task(s, a) + β(s) * r_VLM(s),其中r_task(s, a)是任务特定奖励,r_VLM(s)是VLM指导奖励,β(s)是状态相关的权重。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在HumanoidBench和MetaWorld上的实验结果表明,MVR显著优于现有的基于图像的奖励增强方法。例如,在HumanoidBench的多个运动任务中,MVR的成功率平均提升了15%以上。消融实验验证了多视角视频信息和状态相关奖励塑造的有效性。实验结果表明,MVR能够有效地指导agent学习复杂的运动策略,提高任务完成的效率和成功率。

🎯 应用场景

MVR框架可应用于各种需要复杂运动控制的机器人任务,例如人形机器人运动、物体操控、自动驾驶等。通过利用多视角视频信息和VLM的语义理解能力,MVR可以有效地指导agent学习复杂的运动策略,提高任务完成的效率和成功率。该研究有助于推动机器人智能化的发展,使其能够更好地适应复杂多变的环境。

📄 摘要(原文)

Reward design is of great importance for solving complex tasks with reinforcement learning. Recent studies have explored using image-text similarity produced by vision-language models (VLMs) to augment rewards of a task with visual feedback. A common practice linearly adds VLM scores to task or success rewards without explicit shaping, potentially altering the optimal policy. Moreover, such approaches, often relying on single static images, struggle with tasks whose desired behavior involves complex, dynamic motions spanning multiple visually different states. Furthermore, single viewpoints can occlude critical aspects of an agent's behavior. To address these issues, this paper presents Multi-View Video Reward Shaping (MVR), a framework that models the relevance of states regarding the target task using videos captured from multiple viewpoints. MVR leverages video-text similarity from a frozen pre-trained VLM to learn a state relevance function that mitigates the bias towards specific static poses inherent in image-based methods. Additionally, we introduce a state-dependent reward shaping formulation that integrates task-specific rewards and VLM-based guidance, automatically reducing the influence of VLM guidance once the desired motion pattern is achieved. We confirm the efficacy of the proposed framework with extensive experiments on challenging humanoid locomotion tasks from HumanoidBench and manipulation tasks from MetaWorld, verifying the design choices through ablation studies.