Yolo-Key-6D: Single Stage Monocular 6D Pose Estimation with Keypoint Enhancements
作者: Kemal Alperen Çetiner, Hazım Kemal Ekenel
分类: cs.CV
发布日期: 2026-03-04
备注: Accepted to VISAPP 2026
💡 一句话要点
Yolo-Key-6D:基于关键点增强的单阶段单目6D位姿估计
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 6D位姿估计 单目视觉 单阶段方法 关键点检测 YOLO 机器人 增强现实
📋 核心要点
- 现有多阶段6D位姿估计方法延迟高,难以满足实时性需求,限制了其在机器人和扩展现实等领域的应用。
- Yolo-Key-6D通过单阶段架构,结合关键点检测辅助头,增强网络对3D几何的理解,实现快速准确的位姿估计。
- 在LINEMOD和LINEMOD-Occluded数据集上,Yolo-Key-6D取得了具有竞争力的精度,并验证了其能够实时运行。
📝 摘要(中文)
本文提出了一种名为Yolo-Key-6D的单阶段、端到端单目6D位姿估计框架,旨在提高速度和准确性。该方法通过集成一个辅助头来增强基于YOLO的架构,该辅助头回归物体3D边界框角点的2D投影。这种关键点检测任务显著提高了网络对3D几何的理解。为了实现稳定的端到端训练,我们使用连续的9D表示直接回归旋转,并通过奇异值分解将其投影到SO(3)。在LINEMOD和LINEMOD-Occluded基准测试中,YOLO-Key-6D分别实现了96.24%和69.41%的ADD(-S) 0.1d指标的竞争性准确率,并证明了其能够实时运行。结果表明,精心设计的单阶段方法可以为实际部署提供性能和效率的实用且有效的平衡。
🔬 方法详解
问题定义:论文旨在解决单目图像的6D位姿估计问题。现有方法,特别是多阶段方法,通常计算复杂度高,推理速度慢,难以满足实时性要求,限制了其在机器人和增强现实等领域的应用。因此,需要一种既能保证精度,又能实现实时性的单阶段6D位姿估计方法。
核心思路:论文的核心思路是利用单阶段目标检测器YOLO作为基础框架,并增加一个辅助头来预测物体3D边界框角点的2D投影。通过关键点检测任务,增强网络对物体3D几何结构的理解,从而提高位姿估计的准确性。同时,采用单阶段架构,避免了多阶段方法的复杂性和延迟。
技术框架:Yolo-Key-6D的整体架构基于YOLO目标检测器。主要包含以下模块:1) YOLO检测头:用于检测图像中的物体并预测其2D边界框。2) 关键点检测头:一个辅助头,用于回归物体3D边界框角点的2D投影。3) 位姿估计模块:利用YOLO检测头和关键点检测头的输出,估计物体的6D位姿。整个框架采用端到端的方式进行训练。
关键创新:论文的关键创新在于将关键点检测任务融入到单阶段6D位姿估计框架中。通过预测物体3D边界框角点的2D投影,显式地引导网络学习物体的3D几何信息,从而提高了位姿估计的准确性。与现有方法相比,Yolo-Key-6D避免了多阶段处理,实现了更高的效率。
关键设计:论文的关键设计包括:1) 关键点检测头的网络结构:采用卷积神经网络进行关键点预测。2) 损失函数:采用Smooth L1损失函数来回归关键点坐标。3) 旋转表示:使用连续的9D表示直接回归旋转,并通过奇异值分解将其投影到SO(3),避免了欧拉角等表示方法的奇异性问题。4) 端到端训练:整个网络采用端到端的方式进行训练,使得各个模块能够协同优化。
🖼️ 关键图片
📊 实验亮点
Yolo-Key-6D在LINEMOD和LINEMOD-Occluded数据集上取得了显著的成果。在LINEMOD数据集上,ADD(-S) 0.1d指标达到了96.24%的准确率。在更具挑战性的LINEMOD-Occluded数据集上,ADD(-S) 0.1d指标达到了69.41%的准确率。同时,该方法能够实时运行,证明了其在实际应用中的可行性。
🎯 应用场景
Yolo-Key-6D在机器人、增强现实和虚拟现实等领域具有广泛的应用前景。例如,在机器人抓取任务中,可以利用该方法快速准确地估计物体的6D位姿,从而引导机器人进行精确抓取。在增强现实应用中,可以将虚拟物体与真实场景进行精确对齐,提供更逼真的用户体验。此外,该方法还可以应用于工业自动化、自动驾驶等领域。
📄 摘要(原文)
Estimating the 6D pose of objects from a single RGB image is a critical task for robotics and extended reality applications. However, state-of-the-art multi stage methods often suffer from high latency, making them unsuitable for real time use. In this paper, we present Yolo-Key-6D, a novel single stage, end-to-end framework for monocular 6D pose estimation designed for both speed and accuracy. Our approach enhances a YOLO based architecture by integrating an auxiliary head that regresses the 2D projections of an object's 3D bounding box corners. This keypoint detection task significantly improves the network's understanding of 3D geometry. For stable end-to-end training, we directly regress rotation using a continuous 9D representation projected to SO(3) via singular value decomposition. On the LINEMOD and LINEMOD-Occluded benchmarks, YOLO-Key-6D achieves competitive accuracy scores of 96.24% and 69.41%, respectively, with the ADD(-S) 0.1d metric, while proving itself to operate in real time. Our results demonstrate that a carefully designed single stage method can provide a practical and effective balance of performance and efficiency for real world deployment.