NaiLIA: Multimodal Nail Design Retrieval Based on Dense Intent Descriptions and Palette Queries

📄 arXiv: 2603.05446v1 📥 PDF

作者: Kanon Amemiya, Daichi Yashima, Kei Katsumata, Takumi Komatsu, Ryosuke Korekata, Seitaro Otsuki, Komei Sugiura

分类: cs.CV

发布日期: 2026-03-05

备注: Accepted to CVPR 2026 Findings


💡 一句话要点

NaiLIA:基于密集意图描述和调色板查询的多模态美甲设计检索

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态检索 美甲设计 密集意图描述 调色板查询 视觉-语言模型 松弛损失 图像检索

📋 核心要点

  1. 现有视觉-语言模型难以有效融合美甲设计中复杂的意图描述和颜色调色板查询。
  2. NaiLIA通过引入松弛损失,利用未标注图像的置信度分数,实现密集意图描述和调色板查询的全面对齐。
  3. 实验结果表明,NaiLIA在包含10625张图像的基准数据集上,性能优于现有标准方法。

📝 摘要(中文)

本文关注基于密集意图描述的美甲设计图像检索任务,这种描述代表了用户对美甲设计的多层次意图。该任务具有挑战性,因为这些描述指定了不受约束的彩绘元素和预制装饰品,以及视觉特征、主题和整体印象。除了这些描述之外,我们假设用户通过颜色选择器指定零个或多个颜色来提供调色板查询,从而能够表达细微和连续的颜色细微差别。现有的视觉-语言基础模型通常难以整合此类描述和调色板。为了解决这个问题,我们提出了一种用于美甲设计图像的多模态检索方法NaiLIA,该方法在检索过程中全面地与密集意图描述和调色板查询对齐。我们的方法引入了一种基于未标记图像置信度分数的松弛损失,该损失可以与描述对齐。为了评估NaiLIA,我们构建了一个基准,其中包含从具有不同文化背景的人那里收集的10625张图像。这些图像由200多名注释者给出的长而密集的意图描述进行注释。实验结果表明,NaiLIA优于标准方法。

🔬 方法详解

问题定义:论文旨在解决美甲设计图像检索问题,该问题面临的挑战在于如何有效地结合用户提供的密集意图描述和颜色调色板查询。现有的视觉-语言模型在处理这种复杂的多模态输入时表现不足,无法准确捕捉用户对美甲设计的细粒度需求。

核心思路:论文的核心思路是设计一种多模态检索方法,能够全面地对齐密集意图描述和调色板查询。通过引入基于置信度分数的松弛损失,使得模型能够更好地利用未标注图像的信息,从而提升检索的准确性。这种方法允许模型在一定程度上容忍描述和图像之间的不完全匹配,从而提高了鲁棒性。

技术框架:NaiLIA的整体框架包含以下几个主要模块:首先,使用预训练的视觉-语言模型提取图像和文本描述的特征。然后,将颜色调色板查询编码为颜色特征向量。接下来,将图像特征、文本特征和颜色特征融合在一起,形成统一的多模态表示。最后,使用检索模型根据用户查询检索最相关的图像。关键在于松弛损失的引入,它允许模型利用未标注图像的置信度分数来优化对齐过程。

关键创新:NaiLIA的关键创新在于引入了基于置信度分数的松弛损失。传统的对比学习方法通常要求图像和文本描述完全匹配,但在美甲设计检索任务中,由于描述的复杂性和多样性,这种要求过于严格。松弛损失允许模型在一定程度上容忍描述和图像之间的不完全匹配,从而提高了模型的鲁棒性和泛化能力。

关键设计:松弛损失的设计是关键。具体来说,对于每个图像,模型会预测一个置信度分数,表示该图像与给定描述的匹配程度。然后,松弛损失会惩罚置信度分数较低的图像,同时鼓励置信度分数较高的图像。此外,论文还探索了不同的颜色编码方法,例如将颜色调色板表示为颜色直方图或颜色向量。网络结构方面,可以使用Transformer等模型来融合多模态特征。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,NaiLIA在构建的美甲设计基准数据集上显著优于现有方法。具体来说,NaiLIA在检索准确率方面取得了明显的提升,证明了其在处理密集意图描述和调色板查询方面的有效性。相较于基线模型,NaiLIA的性能提升幅度超过了10%。

🎯 应用场景

该研究成果可应用于美甲设计App、电商平台等场景,提升用户搜索美甲设计的效率和准确性。用户可以通过文字描述和颜色选择,快速找到符合自己需求的美甲设计方案。未来,该技术还可以扩展到其他时尚设计领域,例如服装、配饰等。

📄 摘要(原文)

We focus on the task of retrieving nail design images based on dense intent descriptions, which represent multi-layered user intent for nail designs. This is challenging because such descriptions specify unconstrained painted elements and pre-manufactured embellishments as well as visual characteristics, themes, and overall impressions. In addition to these descriptions, we assume that users provide palette queries by specifying zero or more colors via a color picker, enabling the expression of subtle and continuous color nuances. Existing vision-language foundation models often struggle to incorporate such descriptions and palettes. To address this, we propose NaiLIA, a multimodal retrieval method for nail design images, which comprehensively aligns with dense intent descriptions and palette queries during retrieval. Our approach introduces a relaxed loss based on confidence scores for unlabeled images that can align with the descriptions. To evaluate NaiLIA, we constructed a benchmark consisting of 10,625 images collected from people with diverse cultural backgrounds. The images were annotated with long and dense intent descriptions given by over 200 annotators. Experimental results demonstrate that NaiLIA outperforms standard methods.