HarvestFlex: Strawberry Harvesting via Vision-Language-Action Policy Adaptation in the Wild

作者: Ziyang Zhao, Shuheng Wang, Zhonghua Miao, Ya Xiong

分类: cs.RO, cs.CV

发布日期: 2026-03-06

💡 一句话要点

提出HarvestFlex以解决温室草莓采摘中的视觉-语言-动作策略迁移问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作 温室采摘 闭环控制 深度学习 农业自动化

📋 核心要点

现有方法在温室草莓采摘中面临遮挡和镜面反射等挑战，导致视觉信息获取困难。
本研究提出了一种基于视觉-语言-动作策略的迁移方法，通过三视角RGB传感器构建闭环系统，避免了深度信息的依赖。
实验结果显示，经过微调的模型在真实温室环境中实现了74.0%的成功率，且每次采摘时间和损坏率表现良好。

📝 摘要（中文）

本研究首次探讨了将视觉-语言-动作（VLA）策略迁移到实际温室草莓采摘中的应用，这是一项面临遮挡和镜面反射挑战的长期非结构化任务。我们在HarvestFlex平台上构建了一个端到端的闭环系统，采用三视角RGB传感器（两个固定场景视角加一个手腕安装视角），并有意避免使用深度云和显式几何校准。通过收集3.71小时的虚拟现实远程操作演示（227个实验），我们对pi_0、pi_0.5和WALL-OSS进行了全量微调和LoRA。根据统一的50次真实温室协议和涵盖完成度的指标，pi_0.5在全量微调下成功率达到74.0%，每次采摘耗时32.6秒，损坏率为4.1%。

🔬 方法详解

问题定义：本论文旨在解决温室草莓采摘中视觉-语言-动作策略的迁移问题，现有方法在处理遮挡和镜面反射时表现不佳，导致采摘效率低下。

核心思路：论文提出了一种基于三视角RGB传感器的闭环系统，避免了对深度信息的依赖，从而提高了在复杂环境中的采摘能力。

技术框架：整体架构包括数据采集模块（使用三视角RGB传感器）、策略微调模块（对VLA策略进行全量微调和LoRA）、以及闭环控制模块（实现实时反馈和调整）。

关键创新：最重要的创新在于实现了在真实环境中进行的非平凡闭环采摘，且仅需不到四小时的真实数据进行训练，显著提高了采摘效率。

关键设计：在参数设置上，采用了全量微调和LoRA技术，损失函数设计考虑了成功率和损坏率的平衡，网络结构则基于现有的VLA模型进行优化。

🖼️ 关键图片

📊 实验亮点

实验结果表明，经过全量微调的pi_0.5模型在真实温室环境中实现了74.0%的成功率，采摘时间为32.6秒/次，损坏率仅为4.1%。与基线模型相比，性能显著提升，展示了该方法在实际应用中的有效性。

🎯 应用场景

该研究的潜在应用领域包括农业自动化和智能机器人采摘系统，能够提高温室作物的采摘效率，降低人力成本。未来，该技术有望推广到其他类型的农作物采摘及相关领域，推动农业现代化进程。

📄 摘要（原文）

This work presents the first study on transferring vision-language-action (VLA) policies to real greenhouse tabletop strawberry harvesting, a long-horizon, unstructured task challenged by occlusion and specular reflections. We built an end-to-end closed-loop system on the HarvestFlex platform using three-view RGB sensing (two fixed scene views plus a wrist-mounted view) and intentionally avoided depth clouds and explicit geometric calibration. We collected 3.71 h of VR teleoperated demonstrations (227 episodes) and fine-tuned pi_0, pi_0.5, and WALL-OSS with full fine-tuning and LoRA. Under a unified 50 trials real-greenhouse protocol and metrics spanning completion, pi_0.5 with full fine-tuning achieved success rate of 74.0% with 32.6 s/pick and damage rate of 4.1%. Asynchronous inference-control decoupling further improved performance over synchronous deployment. Results showed non-trivial closed-loop picking with fewer than four hours of real data, while remaining limited by close-range observability loss and contact-dynamics mismatch. A demonstration video is available at: https://youtu.be/bN8ZowZKPMI.

HarvestFlex: Strawberry Harvesting via Vision-Language-Action Policy Adaptation in the Wild

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理