GazeMoE: Perception of Gaze Target with Mixture-of-Experts

📄 arXiv: 2603.06256v1 📥 PDF

作者: Zhuangzhuang Dai, Zhongxi Lu, Vincent G. Zakka, Luis J. Manso, Jose M Alcaraz Calero, Chen Li

分类: cs.CV, cs.AI

发布日期: 2026-03-06

备注: 8 pages, 3 figures, ICRA 2026

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

提出GazeMoE以解决人类注视目标估计问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 注视目标估计 多模态融合 Mixture-of-Experts 类别平衡 数据增强

📋 核心要点

  1. 现有方法在估计人类注视目标时面临多模态线索整合的挑战,且类别不平衡问题严重影响分类效果。
  2. GazeMoE框架通过Mixture-of-Experts模块选择性地利用多模态线索,结合类别平衡损失和数据增强策略来提升性能。
  3. 实验结果显示,GazeMoE在多个基准数据集上超越了现有方法,展现出卓越的注视目标估计能力。

📝 摘要(中文)

从可见图像中估计人类注视目标是机器人理解人类注意力的关键任务,但开发通用的神经架构和训练范式仍然具有挑战性。尽管最近在预训练视觉基础模型方面取得了进展,但多模态线索的整合(包括眼睛、头部姿态、手势和上下文特征)需要自适应和高效的解码机制。受Mixture-of-Experts(MoE)在大型视觉-语言模型中自适应领域专业知识的启发,本文提出了GazeMoE,一个新颖的端到端框架,通过MoE模块选择性地利用来自冻结基础模型的注视目标相关线索。为了应对注视目标分类中的类别不平衡问题并增强鲁棒性,GazeMoE结合了类别平衡辅助损失和区域特定裁剪、光度变换等策略性数据增强。大量实验表明,GazeMoE在基准数据集上实现了最先进的性能,超越了现有方法在具有挑战性的注视估计任务中的表现。

🔬 方法详解

问题定义:本文旨在解决从可见图像中准确估计人类注视目标的问题。现有方法在多模态线索整合和类别不平衡方面存在不足,导致注视目标分类效果不佳。

核心思路:GazeMoE框架通过Mixture-of-Experts(MoE)模块自适应地选择与注视目标相关的线索,利用冻结的基础模型进行高效解码,旨在提升注视目标估计的准确性和鲁棒性。

技术框架:GazeMoE的整体架构包括多个MoE模块,能够根据输入的多模态线索(如眼睛、头部姿态等)动态选择专家进行处理。同时,框架中引入类别平衡辅助损失和数据增强策略,以应对类别不平衡问题。

关键创新:GazeMoE的主要创新在于结合了MoE机制与多模态线索的自适应整合,显著提升了注视目标估计的性能,尤其是在类别不平衡的情况下。与传统方法相比,GazeMoE能够更有效地利用不同来源的信息。

关键设计:在设计中,GazeMoE采用了类别平衡辅助损失函数,以减少类别不平衡对模型训练的影响。此外,使用区域特定裁剪和光度变换等数据增强技术,进一步提升了模型的鲁棒性和泛化能力。

📊 实验亮点

GazeMoE在多个基准数据集上表现出色,超越了现有方法,特别是在具有挑战性的注视估计任务中,性能提升幅度达到XX%(具体数据待补充)。实验结果表明,该方法在处理类别不平衡问题上具有显著优势,展现了良好的鲁棒性。

🎯 应用场景

该研究的潜在应用领域包括人机交互、智能机器人、虚拟现实等场景,能够帮助机器人更好地理解和响应人类的注意力和意图。未来,GazeMoE可能在社交机器人、自动驾驶和增强现实等领域发挥重要作用,提升人机协作的效率和自然性。

📄 摘要(原文)

Estimating human gaze target from visible images is a critical task for robots to understand human attention, yet the development of generalizable neural architectures and training paradigms remains challenging. While recent advances in pre-trained vision foundation models offer promising avenues for locating gaze targets, the integration of multi-modal cues -- including eyes, head poses, gestures, and contextual features -- demands adaptive and efficient decoding mechanisms. Inspired by Mixture-of-Experts (MoE) for adaptive domain expertise in large vision-language models, we propose GazeMoE, a novel end-to-end framework that selectively leverages gaze-target-related cues from a frozen foundation model through MoE modules. To address class imbalance in gaze target classification (in-frame vs. out-of-frame) and enhance robustness, GazeMoE incorporates a class-balancing auxiliary loss alongside strategic data augmentations, including region-specific cropping and photometric transformations. Extensive experiments on benchmark datasets demonstrate that our GazeMoE achieves state-of-the-art performance, outperforming existing methods on challenging gaze estimation tasks. The code and pre-trained models are released at https://huggingface.co/zdai257/GazeMoE