Benchmark on Monocular Metric Depth Estimation in Wildlife Setting

📄 arXiv: 2510.04723v1 📥 PDF

作者: Niccolò Niccoli, Lorenzo Seidenari, Ilaria Greco, Francesco Rovero

分类: cs.CV

发布日期: 2025-10-06


💡 一句话要点

构建野生动物场景下单目深度估计基准,评估现有方法性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 单目深度估计 野生动物监测 相机陷阱 深度学习 基准测试

📋 核心要点

  1. 现有单目深度估计方法在野生动物监测等自然场景下缺乏系统性评估,性能未知。
  2. 构建了首个野生动物场景下单目度量深度估计基准,使用真实距离数据评估现有方法。
  3. 实验表明Depth Anything V2在精度和速度上表现最佳,为野生动物监测应用提供了参考。

📝 摘要(中文)

相机陷阱被广泛应用于野生动物监测,但由于缺乏深度信息,从单目图像中提取精确的距离测量仍然具有挑战性。虽然单目深度估计(MDE)方法已经取得了显著进展,但它们在自然野生动物环境中的性能尚未得到系统评估。本文介绍了第一个用于野生动物监测条件下单目度量深度估计的基准。我们评估了四种最先进的MDE方法(Depth Anything V2、ML Depth Pro、ZoeDepth和Metric3D)以及一个几何基线,使用了93张带有通过校准的ChARUCO模式获得的真实距离的相机陷阱图像。我们的结果表明,Depth Anything V2实现了最佳的整体性能,平均绝对误差为0.454m,相关性为0.962,而ZoeDepth等方法在户外自然环境中表现出显著的性能下降(MAE:3.087m)。我们发现,基于中值的深度提取始终优于所有深度学习方法中基于平均值的提取。此外,我们分析了计算效率,ZoeDepth是最快的(每张图像0.17秒),但精度最低,而Depth Anything V2在精度和速度之间提供了最佳平衡(每张图像0.22秒)。该基准为野生动物应用建立了性能基线,并为在保护监测系统中实施深度估计提供了实践指导。

🔬 方法详解

问题定义:论文旨在解决野生动物监测中,利用单目相机图像进行精确深度估计的问题。现有单目深度估计方法虽然发展迅速,但在野生动物的自然环境中缺乏充分的评估,其性能表现未知,难以直接应用于实际的保护监测工作。现有方法的痛点在于缺乏针对性的基准数据集和性能评估。

核心思路:论文的核心思路是构建一个专门针对野生动物监测场景的单目深度估计基准,通过收集带有真实深度信息的图像,并在此基础上评估现有主流单目深度估计方法的性能。通过对比不同方法的表现,为实际应用提供选择依据和改进方向。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 构建数据集:收集包含野生动物的相机陷阱图像,并使用校准的ChARUCO模式获取图像中物体的真实距离作为深度信息。2) 选择评估方法:选取四种代表性的单目深度估计方法(Depth Anything V2、ML Depth Pro、ZoeDepth和Metric3D)以及一个几何基线方法。3) 性能评估:在构建的数据集上运行选定的方法,并使用平均绝对误差(MAE)和相关性等指标评估其深度估计的准确性。4) 计算效率分析:评估各种方法的运行时间,分析其计算效率。

关键创新:该论文的关键创新在于构建了首个针对野生动物监测场景的单目深度估计基准。该基准的建立填补了该领域缺乏系统性评估的空白,为后续研究提供了统一的评估平台。此外,论文还分析了不同深度提取策略(基于中值 vs. 基于均值)对性能的影响。

关键设计:论文的关键设计包括:1) 数据集构建:使用相机陷阱图像,并采用ChARUCO模式进行标定,获取精确的真实距离数据。2) 评估指标:采用平均绝对误差(MAE)和相关性等常用指标,全面评估深度估计的准确性。3) 对比实验:对比了四种主流的深度学习方法和一个几何基线方法,并分析了不同方法的优缺点。4) 深度提取策略:比较了基于中值和基于均值的深度提取策略,发现基于中值的策略表现更佳。

📊 实验亮点

实验结果表明,Depth Anything V2在野生动物场景下单目深度估计中表现最佳,平均绝对误差为0.454m,相关性为0.962。ZoeDepth虽然速度最快(0.17s/image),但在该场景下精度显著下降(MAE: 3.087m)。研究还发现,基于中值的深度提取策略优于基于均值的策略。该基准为后续研究提供了重要的参考。

🎯 应用场景

该研究成果可直接应用于野生动物保护和监测领域,例如:自动识别动物个体、估计种群密度、分析动物行为等。通过单目深度估计,可以从低成本的相机陷阱图像中提取有用的三维信息,无需昂贵的立体相机或激光雷达设备。该基准的建立将促进相关算法的改进和优化,推动野生动物保护技术的进步。

📄 摘要(原文)

Camera traps are widely used for wildlife monitoring, but extracting accurate distance measurements from monocular images remains challenging due to the lack of depth information. While monocular depth estimation (MDE) methods have advanced significantly, their performance in natural wildlife environments has not been systematically evaluated. This work introduces the first benchmark for monocular metric depth estimation in wildlife monitoring conditions. We evaluate four state-of-the-art MDE methods (Depth Anything V2, ML Depth Pro, ZoeDepth, and Metric3D) alongside a geometric baseline on 93 camera trap images with ground truth distances obtained using calibrated ChARUCO patterns. Our results demonstrate that Depth Anything V2 achieves the best overall performance with a mean absolute error of 0.454m and correlation of 0.962, while methods like ZoeDepth show significant degradation in outdoor natural environments (MAE: 3.087m). We find that median-based depth extraction consistently outperforms mean-based approaches across all deep learning methods. Additionally, we analyze computational efficiency, with ZoeDepth being fastest (0.17s per image) but least accurate, while Depth Anything V2 provides an optimal balance of accuracy and speed (0.22s per image). This benchmark establishes performance baselines for wildlife applications and provides practical guidance for implementing depth estimation in conservation monitoring systems.