HarvestFlex: Strawberry Harvesting via Vision-Language-Action Policy Adaptation in the Wild
作者: Ziyang Zhao, Shuheng Wang, Zhonghua Miao, Ya Xiong
分类: cs.RO, cs.CV
发布日期: 2026-03-06
💡 一句话要点
提出HarvestFlex以解决温室草莓采摘中的视觉-语言-动作策略迁移问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言-动作 温室采摘 闭环控制 深度学习 农业自动化
📋 核心要点
- 现有方法在温室草莓采摘中面临遮挡和镜面反射等挑战,导致视觉信息获取困难。
- 本研究提出了一种基于视觉-语言-动作策略的迁移方法,通过三视角RGB传感器构建闭环系统,避免了深度信息的依赖。
- 实验结果显示,经过微调的模型在真实温室环境中实现了74.0%的成功率,且每次采摘时间和损坏率表现良好。
📝 摘要(中文)
本研究首次探讨了将视觉-语言-动作(VLA)策略迁移到实际温室草莓采摘中的应用,这是一项面临遮挡和镜面反射挑战的长期非结构化任务。我们在HarvestFlex平台上构建了一个端到端的闭环系统,采用三视角RGB传感器(两个固定场景视角加一个手腕安装视角),并有意避免使用深度云和显式几何校准。通过收集3.71小时的虚拟现实远程操作演示(227个实验),我们对pi_0、pi_0.5和WALL-OSS进行了全量微调和LoRA。根据统一的50次真实温室协议和涵盖完成度的指标,pi_0.5在全量微调下成功率达到74.0%,每次采摘耗时32.6秒,损坏率为4.1%。
🔬 方法详解
问题定义:本论文旨在解决温室草莓采摘中视觉-语言-动作策略的迁移问题,现有方法在处理遮挡和镜面反射时表现不佳,导致采摘效率低下。
核心思路:论文提出了一种基于三视角RGB传感器的闭环系统,避免了对深度信息的依赖,从而提高了在复杂环境中的采摘能力。
技术框架:整体架构包括数据采集模块(使用三视角RGB传感器)、策略微调模块(对VLA策略进行全量微调和LoRA)、以及闭环控制模块(实现实时反馈和调整)。
关键创新:最重要的创新在于实现了在真实环境中进行的非平凡闭环采摘,且仅需不到四小时的真实数据进行训练,显著提高了采摘效率。
关键设计:在参数设置上,采用了全量微调和LoRA技术,损失函数设计考虑了成功率和损坏率的平衡,网络结构则基于现有的VLA模型进行优化。
🖼️ 关键图片
📊 实验亮点
实验结果表明,经过全量微调的pi_0.5模型在真实温室环境中实现了74.0%的成功率,采摘时间为32.6秒/次,损坏率仅为4.1%。与基线模型相比,性能显著提升,展示了该方法在实际应用中的有效性。
🎯 应用场景
该研究的潜在应用领域包括农业自动化和智能机器人采摘系统,能够提高温室作物的采摘效率,降低人力成本。未来,该技术有望推广到其他类型的农作物采摘及相关领域,推动农业现代化进程。
📄 摘要(原文)
This work presents the first study on transferring vision-language-action (VLA) policies to real greenhouse tabletop strawberry harvesting, a long-horizon, unstructured task challenged by occlusion and specular reflections. We built an end-to-end closed-loop system on the HarvestFlex platform using three-view RGB sensing (two fixed scene views plus a wrist-mounted view) and intentionally avoided depth clouds and explicit geometric calibration. We collected 3.71 h of VR teleoperated demonstrations (227 episodes) and fine-tuned pi_0, pi_0.5, and WALL-OSS with full fine-tuning and LoRA. Under a unified 50 trials real-greenhouse protocol and metrics spanning completion, pi_0.5 with full fine-tuning achieved success rate of 74.0% with 32.6 s/pick and damage rate of 4.1%. Asynchronous inference-control decoupling further improved performance over synchronous deployment. Results showed non-trivial closed-loop picking with fewer than four hours of real data, while remaining limited by close-range observability loss and contact-dynamics mismatch. A demonstration video is available at: https://youtu.be/bN8ZowZKPMI.