RobotArena $\infty$: Scalable Robot Benchmarking via Real-to-Sim Translation

📄 arXiv: 2510.23571v1 📥 PDF

作者: Yash Jangir, Yidi Zhang, Kashu Yamazaki, Chenyu Zhang, Kuan-Hsun Tu, Tsung-Wei Ke, Lei Ke, Yonatan Bisk, Katerina Fragkiadaki

分类: cs.RO, cs.AI, cs.CV, cs.LG

发布日期: 2025-10-27

备注: Website: https://robotarenainf.github.io


💡 一句话要点

RobotArena ∞:通过真实到模拟的转换实现可扩展的机器人基准测试

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人基准测试 真实到模拟转换 视觉语言模型 可微渲染 人工偏好判断 策略评估 环境扰动

📋 核心要点

  1. 现有机器人策略评估方法在真实世界测试中面临成本高、复现难等问题,模拟环境又缺乏真实性。
  2. 该论文提出RobotArena ∞,利用真实到模拟的转换,构建大规模、可控扰动的模拟环境进行策略评估。
  3. 通过VLM引导评分和众包人工偏好判断,实现自动化和可扩展的策略评估,并测试策略的鲁棒性。

📝 摘要(中文)

为了追求机器人通用智能体——能够执行各种任务的智能体,我们需要严谨且可扩展的评估方法。然而,机器人策略的真实世界测试受到根本限制:它耗时费力、速度慢、大规模情况下不安全且难以复现。现有的模拟基准测试也存在局限性,因为它们在相同的合成领域内训练和测试策略,无法评估从真实世界演示或替代模拟环境中训练的模型。随着策略范围和复杂性的扩展,这些障碍只会加剧,因为机器人技术中“成功”的定义通常取决于对执行质量的细致入微的人工判断。本文介绍了一种新的基准测试框架,通过将VLA评估转移到大规模模拟环境中并辅以在线人工反馈来克服这些挑战。利用视觉语言模型、2D到3D生成建模和可微渲染的进步,我们的方法自动将来自广泛使用的机器人数据集的视频演示转换为模拟副本。在这些数字孪生中,我们使用自动化的VLM引导评分和从众包工作者那里收集的可扩展的人工偏好判断来评估VLA策略,从而将人工参与从繁琐的场景设置、重置和安全监督转变为轻量级的偏好比较。为了衡量鲁棒性,我们系统地扰动模拟环境的多个轴,例如纹理和对象放置,从而在受控变化下对策略泛化进行压力测试。最终形成了一个不断发展、可复现且可扩展的真实世界训练的机器人操作策略基准,解决了当今机器人技术领域中一个关键的缺失能力。

🔬 方法详解

问题定义:现有机器人策略评估方法存在真实世界测试成本高昂、难以复现,以及模拟环境真实性不足的问题。真实世界测试需要大量的人工干预,包括场景设置、重置和安全监督,限制了其可扩展性。而现有的模拟环境往往与真实世界存在差异,导致在模拟环境中训练的策略难以直接应用于真实机器人。

核心思路:该论文的核心思路是将真实世界的机器人操作视频转换为模拟环境,从而利用模拟环境的可扩展性和可控性进行策略评估。通过视觉语言模型、2D到3D生成建模和可微渲染等技术,构建真实世界的数字孪生,并在这些数字孪生中评估机器人策略。同时,引入人工偏好判断,以更准确地评估策略的执行质量。

技术框架:RobotArena ∞的整体框架包括以下几个主要模块: 1. 真实世界数据转换模块:将真实世界的机器人操作视频转换为模拟环境,包括场景重建、对象建模和物理参数估计等。 2. 策略评估模块:在模拟环境中运行机器人策略,并使用VLM引导评分和人工偏好判断来评估策略的性能。 3. 环境扰动模块:系统地扰动模拟环境的多个轴,例如纹理和对象放置,以测试策略的鲁棒性。 4. 基准测试平台:提供一个可扩展的平台,用于存储和管理模拟环境、机器人策略和评估结果。

关键创新:该论文最重要的技术创新点在于将真实世界的机器人操作视频转换为模拟环境,并利用人工偏好判断来评估策略的性能。这种方法结合了模拟环境的可扩展性和人工判断的准确性,从而实现了更有效和可靠的机器人策略评估。

关键设计:在真实世界数据转换模块中,使用了视觉语言模型来理解视频中的场景和任务,并使用2D到3D生成建模技术来重建场景的三维模型。在策略评估模块中,使用了VLM引导评分来自动评估策略的性能,并使用众包平台来收集人工偏好判断。在环境扰动模块中,设计了一系列扰动参数,例如纹理、对象放置和光照条件,以测试策略的鲁棒性。

📊 实验亮点

RobotArena ∞ 能够将真实世界的机器人操作视频转换为模拟环境,并利用人工偏好判断来评估策略的性能。通过在模拟环境中进行大规模的策略评估,可以有效地测试策略的鲁棒性和泛化能力。该框架提供了一个可扩展的平台,用于存储和管理模拟环境、机器人策略和评估结果,为机器人研究人员提供了一个强大的工具。

🎯 应用场景

RobotArena ∞ 可用于开发更通用、更鲁棒的机器人策略。通过大规模的模拟评估,可以快速迭代和优化机器人策略,从而加速机器人技术的发展。该框架还可以用于评估不同机器人策略的性能,为机器人研究人员提供一个公平的比较平台。此外,该技术可以应用于自动驾驶、智能制造等领域,提高系统的智能化水平。

📄 摘要(原文)

The pursuit of robot generalists - instructable agents capable of performing diverse tasks across diverse environments - demands rigorous and scalable evaluation. Yet real-world testing of robot policies remains fundamentally constrained: it is labor-intensive, slow, unsafe at scale, and difficult to reproduce. Existing simulation benchmarks are similarly limited, as they train and test policies within the same synthetic domains and cannot assess models trained from real-world demonstrations or alternative simulation environments. As policies expand in scope and complexity, these barriers only intensify, since defining "success" in robotics often hinges on nuanced human judgments of execution quality. In this paper, we introduce a new benchmarking framework that overcomes these challenges by shifting VLA evaluation into large-scale simulated environments augmented with online human feedback. Leveraging advances in vision-language models, 2D-to-3D generative modeling, and differentiable rendering, our approach automatically converts video demonstrations from widely used robot datasets into simulated counterparts. Within these digital twins, we assess VLA policies using both automated VLM-guided scoring and scalable human preference judgments collected from crowdworkers, transforming human involvement from tedious scene setup, resetting, and safety supervision into lightweight preference comparisons. To measure robustness, we systematically perturb simulated environments along multiple axes, such as textures and object placements, stress-testing policy generalization under controlled variation. The result is a continuously evolving, reproducible, and scalable benchmark for real-world trained robot manipulation policies, addressing a critical missing capability in today's robotics landscape.