Sticky-Glance: Robust Intent Recognition for Human Robot Collaboration via Single-Glance

📄 arXiv: 2603.06121v1 📥 PDF

作者: Yuzhi Lai, Shenghai Yuan, Peizheng Li, Andreas Zell

分类: cs.RO

发布日期: 2026-03-06


💡 一句话要点

Sticky-Glance:基于单次注视的人机协作鲁棒意图识别

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 注视跟踪 意图识别 人机协作 机器人控制 对象中心 动态环境 共享控制

📋 核心要点

  1. 现有的基于注视的意图识别方法在多对象环境中容易受到噪声、视角变化和动态对象的影响,鲁棒性较差。
  2. 论文提出了一种对象中心的注视定位框架,通过“sticky-glance”算法,结合几何距离和方向趋势,稳定意图识别。
  3. 实验结果表明,该方法在动态目标跟踪和静态目标选择方面均取得了较高的准确率,并降低了人机协作的任务时长。

📝 摘要(中文)

本文提出了一种基于注视的对象中心意图识别框架,旨在解决多对象环境中基于注视的意图识别问题,该问题受注视噪声、微眼跳、视角变化和动态对象的影响。该框架通过一种名为“sticky-glance”的算法稳定意图,该算法联合建模了几何距离和方向趋势。即使在只有最少3个注视样本的短暂注视下,推断的意图也能锚定到对象,从而实现动态目标0.94的跟踪率和静态目标0.98的选择准确率。此外,本文还引入了一种连续共享控制和多模态交互模式,从而实现高准备度的控制和人环反馈,从而将任务持续时间缩短近10%。实验结果表明,与代表性基线相比,该方法在动态跟踪、多视角对齐、用户研究和消融研究中均表现出更高的鲁棒性、效率和更低的工作量。

🔬 方法详解

问题定义:论文旨在解决人机协作中,由于注视噪声、微眼跳、视角变化和动态对象等因素导致的基于注视的意图识别鲁棒性问题。现有方法难以在复杂环境下准确识别用户的意图,限制了人机交互的效率和可靠性。

核心思路:论文的核心思路是利用“sticky-glance”算法,将用户的注视意图与场景中的特定对象关联起来,从而提高意图识别的稳定性。该算法结合了几何距离和方向趋势,即使在短暂的注视下,也能将意图锚定到目标对象。

技术框架:整体框架包含以下几个主要步骤:1) 注视数据采集与预处理;2) 对象中心注视定位,利用几何距离和方向趋势计算注视点与各个对象之间的关联度;3) “sticky-glance”算法,根据关联度随时间的变化,稳定意图识别结果;4) 意图输出与人机协作控制。该框架还引入了连续共享控制和多模态交互,以实现更自然和高效的人机协作。

关键创新:该论文的关键创新在于“sticky-glance”算法,它能够有效地过滤注视噪声,并根据注视点与对象之间的几何关系和方向变化,稳定意图识别结果。与传统的基于注视的意图识别方法相比,该算法具有更强的鲁棒性和更高的准确率,尤其是在动态和复杂环境中。

关键设计:在“sticky-glance”算法中,几何距离和方向趋势被联合建模,用于计算注视点与对象之间的关联度。具体来说,几何距离可以使用欧氏距离或余弦相似度等度量方式,方向趋势可以通过计算注视点在对象上的投影方向与对象中心方向之间的夹角来表示。算法的关键参数包括几何距离和方向趋势的权重,以及用于稳定意图识别结果的时间窗口大小。此外,论文还设计了一种连续共享控制策略,允许用户在任何时候介入机器人的控制过程,从而实现更灵活和高效的人机协作。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在动态目标跟踪中达到了0.94的跟踪率,在静态目标选择中达到了0.98的准确率。与基线方法相比,该方法能够显著提高意图识别的鲁棒性和准确率,并降低人机协作的任务时长近10%。用户研究表明,该方法能够有效降低用户的工作量,提升用户体验。

🎯 应用场景

该研究成果可应用于辅助技术领域,例如帮助运动障碍人士通过注视控制机器人完成各种任务。此外,该技术还可应用于智能制造、智能家居等领域,实现更自然、高效的人机交互,提升生产效率和用户体验。未来,该技术有望与虚拟现实、增强现实等技术结合,创造更丰富的交互体验。

📄 摘要(原文)

Gaze is a valuable means of communication for impaired people with extremely limited motor capabilities. However, robust gaze-based intent recognition in multi-object environments is challenging due to gaze noise, micro-saccades, viewpoint changes, and dynamic objects. To address this, we propose an object-centric gaze grounding framework that stabilizes intent through a sticky-glance algorithm, jointly modeling geometric distance and direction trends. The inferred intent remains anchored to the object even under short glances with minimal 3 gaze samples, achieving a tracking rate of 0.94 for dynamic targets and selection accuracy of 0.98 for static targets. We further introduce a continuous shared control and multi-modal interaction paradigm, enabling high-readiness control and human-in-loop feedback, thereby reducing task duration for nearly 10 \%. Experiments across dynamic tracking, multi-perspective alignment, a baseline comparison, user studies, and ablation studies demonstrate improved robustness, efficiency, and reduced workload compared to representative baselines.