Self-supervised Domain Adaptation for Visual 3D Pose Estimation of Nano-drone Racing Gates by Enforcing Geometric Consistency
作者: Nicholas Carlotti, Michele Antonazzi, Elia Cereda, Mirko Nava, Nicola Basilico, Daniele Palossi, Alessandro Giusti
分类: cs.RO
发布日期: 2026-03-03
备注: Accepted at ICRA 2026
💡 一句话要点
提出自监督领域适应方法以解决纳米无人机赛道门的3D姿态估计问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱七:动作重定向 (Motion Retargeting)
关键词: 自监督学习 领域适应 姿态估计 无人机技术 计算机视觉 卷积神经网络 状态一致性损失
📋 核心要点
- 现有方法在模拟与现实之间存在显著差距,导致预训练模型在实际应用中表现不佳。
- 本文提出了一种无监督领域适应方法,通过自监督标注真实图像序列来提高模型在目标领域的适应性。
- 实验结果显示,所提方法在位置和方向的估计上均显著优于基线,且在短时间内即可获得有效模型。
📝 摘要(中文)
本文考虑了在纳米四旋翼无人机前方视觉估计无人机赛道门相对姿态的任务,使用在模拟数据上预训练的卷积神经网络来回归门的姿态。由于模拟与现实之间的差距,预训练模型在现实世界中的表现不佳,需要适应目标领域。我们提出了一种无监督领域适应(UDA)方法,仅使用无人机在赛道门前飞行任意轨迹收集的真实图像序列;这些序列通过无人机的传感器测量的里程计以自监督方式进行标注。在该数据集上,状态一致性损失确保在不同时间获取的两幅图像的姿态预测与无人机的里程计一致。结果表明,我们的方法在位置(x=26, y=28, z=10 cm)和方向(ψ=13°)上均优于其他最先进的UDA方法,位置提升40%,方向提升37%。该方法在仅10分钟的真实飞行数据下也能有效工作,部署在Crazyflie 2.1无刷纳米无人机上时推理时间为30.4ms(33 fps)。
🔬 方法详解
问题定义:本文旨在解决无人机赛道门的3D姿态估计问题,现有方法在模拟数据上训练后,因模拟与现实之间的差距,导致在实际应用中性能下降。
核心思路:提出了一种无监督领域适应方法,利用无人机的自我里程计数据对真实图像序列进行自监督标注,从而提高模型在现实环境中的表现。
技术框架:整体架构包括数据采集、图像序列标注、模型训练和姿态预测四个主要模块。首先,通过无人机飞行收集图像序列,然后利用里程计数据进行自监督标注,最后训练模型以实现姿态预测。
关键创新:最重要的技术创新在于引入状态一致性损失,确保不同时间获取的图像的姿态预测与无人机的里程计数据一致,从而有效缩小了模拟与现实之间的差距。
关键设计:在损失函数中引入状态一致性损失,优化模型的训练过程;网络结构采用卷积神经网络,确保在处理图像数据时具有良好的特征提取能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提方法在位置估计上实现了40%的提升(x=26, y=28, z=10 cm),在方向估计上实现了37%的提升(ψ=13°),且在仅10分钟的真实飞行数据下即可获得有效模型,推理时间为30.4ms(33 fps)。
🎯 应用场景
该研究的潜在应用领域包括无人机导航、自动驾驶和机器人视觉等。通过提高无人机在复杂环境中的姿态估计能力,可以显著提升其自主飞行和任务执行的效率,具有重要的实际价值和广泛的应用前景。
📄 摘要(原文)
We consider the task of visually estimating the relative pose of a drone racing gate in front of a nano-quadrotor, using a convolutional neural network pre-trained on simulated data to regress the gate's pose. Due to the sim-to-real gap, the pre-trained model underperforms in the real world and must be adapted to the target domain. We propose an unsupervised domain adaptation (UDA) approach using only real image sequences collected by the drone flying an arbitrary trajectory in front of a gate; sequences are annotated in a self-supervised fashion with the drone's odometry as measured by its onboard sensors. On this dataset, a state consistency loss enforces that two images acquired at different times yield pose predictions that are consistent with the drone's odometry. Results indicate that our approach outperforms other SoA UDA approaches, has a low mean absolute error in position (x=26, y=28, z=10 cm) and orientation ($ψ$=13${^{\circ}}$), an improvement of 40% in position and 37% in orientation over a baseline. The approach's effectiveness is appreciable with as few as 10 minutes of real-world flight data and yields models with an inference time of 30.4ms (33 fps) when deployed aboard the Crazyflie 2.1 Brushless nano-drone.