MATHENA: Mamba-based Architectural Tooth Hierarchical Estimator and Holistic Evaluation Network for Anatomy

📄 arXiv: 2604.00537v1 📥 PDF

作者: Kyeonghun Kim, Jaehyung Park, Youngung Han, Anna Jung, Seongbin Park, Sumin Lee, Jiwon Yang, Jiyoon Han, Subeen Lee, Junsu Lim, Hyunsu Go, Eunseob Choi, Hyeonseok Jung, Soo Yong Kim, Woo Kyoung Jeong, Won Jae Lee, Pa Hong, Hyuk-Jae Lee, Ken Ying-Kai Liao, Nam-Joon Kim

分类: cs.CV, cs.AI

发布日期: 2026-04-01

备注: 10 pages, 3 figures, 4 tables


💡 一句话要点

MATHENA:基于Mamba的牙齿解剖结构分层估计与整体评估网络

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 牙齿诊断 正畸全景片 Mamba 状态空间模型 多任务学习 龋齿分割 异常检测

📋 核心要点

  1. 现有牙科诊断方法在处理正畸全景片时,缺乏统一框架来同时处理牙齿检测、龋齿分割、异常检测和牙齿发育分期等多项任务。
  2. MATHENA框架利用Mamba的线性复杂度SSM,通过MATHE和HENA两个模块,实现全局上下文建模和多任务学习,从而提升诊断效率。
  3. 实验结果表明,MATHENA在牙齿检测、龋齿分割、异常检测和牙齿发育分期等任务上均取得了显著的性能提升,并构建了PARTHENON基准数据集。

📝 摘要(中文)

本文提出了一种名为MATHENA的统一框架,用于解决正畸全景片(OPGs)中的牙齿检测、龋齿分割(CarSeg)、异常检测(AD)和牙齿发育分期(DDS)四个任务。MATHENA利用Mamba的线性复杂度状态空间模型(SSM),集成了MATHE(一个多分辨率SSM驱动的检测器,具有四向视觉状态空间(VSS)块,用于O(N)全局上下文建模,生成每个牙齿的裁剪图像)和HENA(一个轻量级Mamba-UNet,具有三头架构和全局上下文状态令牌(GCST))。在三头架构中,CarSeg首先作为上游任务进行训练,以建立共享表示,然后冻结并重用于下游AD微调和DDS分类,从而实现稳定、高效的学习。此外,本文还整理了一个包含来自十个数据集的15,062个带注释实例的PARTHENON基准。MATHENA在牙齿检测中实现了93.78%的mAP@50,在CarSeg中实现了90.11%的Dice,在AD中实现了88.35%,在DDS中实现了72.40%的ACC。

🔬 方法详解

问题定义:论文旨在解决正畸全景片(OPGs)中牙齿检测、龋齿分割(CarSeg)、异常检测(AD)和牙齿发育分期(DDS)四个任务。现有方法通常将这些任务独立处理,缺乏统一的框架,效率较低,且难以利用任务之间的关联性。

核心思路:论文的核心思路是利用Mamba的线性复杂度状态空间模型(SSM)来捕获全局上下文信息,并设计一个统一的框架MATHENA来同时处理四个任务。通过多任务学习,利用龋齿分割作为上游任务来学习共享表示,从而提高下游任务的性能。

技术框架:MATHENA框架主要包含两个模块:MATHE和HENA。MATHE是一个多分辨率SSM驱动的检测器,用于牙齿检测,它使用四向视觉状态空间(VSS)块进行全局上下文建模,并生成每个牙齿的裁剪图像。HENA是一个轻量级Mamba-UNet,用于龋齿分割、异常检测和牙齿发育分期。HENA采用三头架构,其中龋齿分割作为上游任务进行训练,然后冻结并重用于下游任务。

关键创新:论文的关键创新在于以下几点:1) 提出了一个统一的框架MATHENA,可以同时处理牙齿检测、龋齿分割、异常检测和牙齿发育分期四个任务。2) 利用Mamba的线性复杂度SSM来捕获全局上下文信息,提高了模型的效率和性能。3) 采用多任务学习策略,利用龋齿分割作为上游任务来学习共享表示,从而提高下游任务的性能。4) 构建了一个包含15,062个带注释实例的PARTHENON基准数据集。

关键设计:MATHE采用多分辨率结构,并使用四向VSS块来捕获全局上下文信息。HENA采用轻量级Mamba-UNet结构,并使用全局上下文状态令牌(GCST)来增强模型的表示能力。在三头架构中,龋齿分割任务首先进行训练,然后冻结并重用于下游任务。损失函数方面,可能采用了交叉熵损失、Dice损失等,具体细节未在摘要中详细说明。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MATHENA在牙齿检测中实现了93.78%的mAP@50,在龋齿分割中实现了90.11%的Dice系数,在异常检测中实现了88.35%的准确率,在牙齿发育分期中实现了72.40%的准确率。这些结果表明,MATHENA在各项任务上均取得了显著的性能提升,验证了该框架的有效性。

🎯 应用场景

该研究成果可应用于计算机辅助牙科诊断,提高诊断效率和准确性。通过自动检测牙齿、分割龋齿、检测异常和评估牙齿发育阶段,可以帮助牙医更快速、更准确地做出诊断决策,从而改善患者的治疗效果。未来,该技术有望集成到牙科诊所的日常工作流程中,并为远程医疗提供支持。

📄 摘要(原文)

Dental diagnosis from Orthopantomograms (OPGs) requires coordination of tooth detection, caries segmentation (CarSeg), anomaly detection (AD), and dental developmental staging (DDS). We propose Mamba-based Architectural Tooth Hierarchical Estimator and Holistic Evaluation Network for Anatomy (MATHENA), a unified framework leveraging Mamba's linear-complexity State Space Models (SSM) to address all four tasks. MATHENA integrates MATHE, a multi-resolution SSM-driven detector with four-directional Vision State Space (VSS) blocks for O(N) global context modeling, generating per-tooth crops. These crops are processed by HENA, a lightweight Mamba-UNet with a triple-head architecture and Global Context State Token (GCST). In the triple-head architecture, CarSeg is first trained as an upstream task to establish shared representations, which are then frozen and reused for downstream AD fine-tuning and DDS classification via linear probing, enabling stable, efficient learning. We also curate PARTHENON, a benchmark comprising 15,062 annotated instances from ten datasets. MATHENA achieves 93.78% mAP@50 in tooth detection, 90.11% Dice for CarSeg, 88.35% for AD, and 72.40% ACC for DDS.