3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding
作者: Xiongkun Linghu, Jiangyong Huang, Baoxiong Jia, Siyuan Huang
分类: cs.CV, cs.AI
发布日期: 2026-03-05
备注: Project page: https://3d-rft.github.io/
💡 一句话要点
提出3D-RFT,通过强化学习微调提升视频3D场景理解能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D场景理解 强化学习 视频理解 多模态学习 大语言模型 策略优化 机器人视觉
📋 核心要点
- 现有视频3D场景理解方法依赖监督微调,以token级交叉熵损失为优化代理,与实际任务性能存在偏差。
- 3D-RFT通过强化学习直接优化模型,使其适应评估指标,利用群体相对策略优化和任务特定奖励函数。
- 实验表明,3D-RFT-4B在多个视频3D场景理解任务上达到SOTA,超越了更大的模型,并展现出良好的鲁棒性。
📝 摘要(中文)
本文提出了一种名为3D-RFT的框架,用于视频3D场景理解的强化学习微调。现有方法主要依赖于监督微调(SFT),使用token级别的交叉熵损失作为间接优化代理,导致训练目标与任务性能不一致。3D-RFT通过直接优化模型以适应评估指标来弥合这一差距,是首个将可验证奖励的强化学习(RLVR)扩展到视频3D感知和推理的框架。3D-RFT首先通过SFT激活3D感知多模态大语言模型(MLLM),然后使用具有严格可验证奖励函数的群体相对策略优化(GRPO)进行强化微调。我们设计了直接来自3D IoU和F1-Score等指标的任务特定奖励函数,以提供更有效的信号来指导模型训练。大量实验表明,3D-RFT-4B在各种基于视频的3D场景理解任务上实现了最先进的性能。值得注意的是,3D-RFT-4B在3D视频检测、3D视觉定位和空间推理基准测试中明显优于更大的模型(例如,VGL LM-8B)。我们进一步揭示了3D-RFT的良好特性,例如强大的有效性,以及对训练策略和数据影响的宝贵见解。我们希望3D-RFT可以作为未来3D场景理解开发的强大且有希望的范例。
🔬 方法详解
问题定义:现有基于视频的3D场景理解方法主要依赖于监督微调(SFT),使用token级别的交叉熵损失作为优化目标。这种间接的优化方式导致训练目标与实际任务的评估指标(如3D IoU、F1-Score等)不一致,从而限制了模型的性能提升。现有方法的痛点在于缺乏直接针对3D场景理解任务的优化策略。
核心思路:3D-RFT的核心思路是将强化学习(RL)引入到视频3D场景理解模型的微调过程中。通过设计与任务评估指标直接相关的奖励函数,引导模型学习更符合实际任务需求的策略。这种直接优化评估指标的方式能够有效弥合训练目标与任务性能之间的差距,从而提升模型的整体性能。采用群体相对策略优化(GRPO)算法,能够更稳定有效地进行强化学习。
技术框架:3D-RFT框架包含两个主要阶段:首先,使用监督微调(SFT)激活3D感知多模态大语言模型(MLLM),使其具备初步的3D场景理解能力。然后,使用群体相对策略优化(GRPO)算法进行强化微调,利用任务特定的奖励函数引导模型学习更优的策略。整个框架以视频作为输入,经过MLLM处理后,输出3D场景理解结果,并根据奖励函数进行策略更新。
关键创新:3D-RFT最重要的技术创新点在于将强化学习引入到视频3D场景理解模型的微调过程中,并设计了与任务评估指标直接相关的奖励函数。与传统的监督微调方法相比,3D-RFT能够直接优化模型的性能,从而更有效地提升模型的整体表现。此外,使用GRPO算法也提高了强化学习的稳定性和效率。
关键设计:3D-RFT的关键设计包括:1) 任务特定的奖励函数,直接基于3D IoU、F1-Score等评估指标设计,以提供更有效的训练信号;2) 群体相对策略优化(GRPO)算法,用于稳定高效地进行强化学习;3) 基于多模态大语言模型(MLLM)的3D感知模块,用于处理视频输入并生成3D场景理解结果。具体参数设置和网络结构细节未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,3D-RFT-4B在多个视频3D场景理解任务上取得了state-of-the-art的性能。例如,在3D视频检测、3D视觉定位和空间推理基准测试中,3D-RFT-4B显著优于更大的模型(例如,VG LLM-8B)。具体性能提升幅度未知,摘要中未提供详细数据。
🎯 应用场景
3D-RFT在机器人导航、自动驾驶、增强现实等领域具有广泛的应用前景。它可以提升机器人对周围环境的感知和理解能力,使其能够更好地进行导航和交互。在自动驾驶领域,3D-RFT可以提高车辆对复杂交通场景的理解能力,从而提升驾驶安全性。此外,3D-RFT还可以应用于增强现实游戏中,提供更逼真的3D场景体验。
📄 摘要(原文)
Reinforcement Learning with Verifiable Rewards ( RLVR ) has emerged as a transformative paradigm for enhancing the reasoning capabilities of Large Language Models ( LLMs), yet its potential in 3D scene understanding remains under-explored. Existing approaches largely rely on Supervised Fine-Tuning ( SFT), where the token-level cross-entropy loss acts as an indirect proxy for optimization, leading to a misalignment between training objectives and task performances. To bridge this gap, we present Reinforcement Fine-Tuning for Video-based 3D Scene Understanding (3D-RFT ), the first framework to extend RLVR to video-based 3D perception and reasoning. 3D-RFT shifts the paradigm by directly optimizing the model towards evaluation metrics. 3D-RFT first activates 3D-aware Multi-modal Large Language Models ( MLLM s) via SFT, followed by reinforcement fine-tuning using Group Relative Policy Optimization ( GRPO) with strictly verifiable reward functions. We design task-specific reward functions directly from metrics like 3D IoU and F1-Score to provide more effective signals to guide model training. Extensive experiments demonstrate that 3D-RFT-4B achieves state-of-the-art performance on various video-based 3D scene understanding tasks. Notably, 3D-RFT-4B significantly outperforms larger models (e.g., VG LLM-8B) on 3D video detection, 3D visual grounding, and spatial reasoning benchmarks. We further reveal good properties of 3D-RFT such as robust efficacy, and valuable insights into training strategies and data impact. We hope 3D-RFT can serve as a robust and promising paradigm for future development of 3D scene understanding.