AceTone: Bridging Words and Colors for Conditional Image Grading

📄 arXiv: 2604.00530v1 📥 PDF

作者: Tianren Ma, Mingxiang Liao, Xijin Zhang, Qixiang Ye

分类: cs.CV

发布日期: 2026-04-01

备注: Accepted by CVPR 2026. Project Page: github.com/martian422/AceTone


💡 一句话要点

AceTone:提出一种多模态条件下的图像色彩分级方法,弥合文本与色彩之间的鸿沟。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 色彩分级 3D-LUT 视觉-语言模型 VQ-VAE 强化学习 图像生成 风格迁移

📋 核心要点

  1. 现有色彩分级方法泛化性差,难以捕捉多样化的创作意图,且与人类审美存在差距。
  2. AceTone将色彩分级视为生成式任务,通过视觉-语言模型直接生成条件3D-LUT,实现风格迁移。
  3. 实验表明,AceTone在文本和图像引导的色彩分级任务上均取得SOTA,LPIPS指标提升显著。

📝 摘要(中文)

色彩影响我们对图像风格和情感的解读。以往的色彩分级方法依赖于逐块重新着色或固定的滤波器组,难以泛化到不同的创作意图或与人类的审美偏好对齐。本研究提出了AceTone,这是第一个在统一框架内支持多模态条件色彩分级的方法。AceTone将色彩分级定义为一个生成式的色彩转换任务,模型直接生成以文本提示或参考图像为条件的3D-LUT。我们开发了一个基于VQ-VAE的tokenizer,将$3 imes32^3$的LUT向量压缩为64个离散token,保真度$ΔE<2$。此外,我们构建了一个大规模数据集AceTone-800K,并训练了一个视觉-语言模型来预测LUT token,然后通过强化学习使输出与感知保真度和美学对齐。实验表明,AceTone在文本引导和参考图像引导的分级任务上都取得了最先进的性能,LPIPS指标提升高达50%。人工评估证实AceTone的结果在视觉上令人愉悦且风格连贯,展示了一种语言驱动、美学对齐的色彩分级新途径。

🔬 方法详解

问题定义:现有的色彩分级方法,如基于patch的颜色调整或固定的滤波器组,无法很好地泛化到不同的创作意图,并且难以与人类的审美偏好对齐。因此,如何实现一种能够理解文本描述或参考图像,并生成符合人类审美的色彩分级结果是一个挑战。

核心思路:AceTone的核心思路是将色彩分级问题转化为一个条件生成任务,即根据给定的文本提示或参考图像,生成相应的3D-LUT。这种方法允许模型直接学习从输入条件到色彩转换的映射关系,从而更好地捕捉创作意图和审美风格。

技术框架:AceTone的整体框架包括以下几个主要模块:1) VQ-VAE Tokenizer:用于将3D-LUT向量压缩为离散的token序列。2) 视觉-语言模型:用于预测LUT token,该模型以文本提示或参考图像作为输入。3) 强化学习模块:用于微调模型,使其输出与感知保真度和美学对齐。整个流程是先通过tokenizer将LUT离散化,然后使用视觉-语言模型预测token,最后通过强化学习进行优化。

关键创新:AceTone的关键创新在于:1) 提出了一种基于VQ-VAE的LUT tokenizer,能够高效地压缩LUT向量,同时保持较高的保真度。2) 构建了一个大规模的AceTone-800K数据集,用于训练视觉-语言模型。3) 采用强化学习方法,将人类的审美偏好融入到模型的训练过程中。

关键设计:VQ-VAE的码本大小设置为64,确保压缩后的token能够充分表达LUT的信息,同时保持较低的量化误差($ΔE<2$)。视觉-语言模型采用Transformer架构,能够有效地捕捉文本和图像之间的关系。强化学习的奖励函数结合了感知损失和美学评分,引导模型生成更符合人类审美的结果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AceTone在文本引导和参考图像引导的色彩分级任务上均取得了显著的性能提升,LPIPS指标相比现有方法提升高达50%。人工评估结果表明,AceTone生成的结果在视觉上更令人愉悦,风格也更加连贯,表明该方法在色彩分级任务上具有很强的竞争力。

🎯 应用场景

AceTone在图像编辑、电影制作、广告设计等领域具有广泛的应用前景。它可以帮助用户快速实现各种风格的色彩分级,提高创作效率和质量。未来,AceTone有望应用于自动化图像处理、智能相册管理等领域,为用户提供更加便捷和个性化的服务。

📄 摘要(原文)

Color affects how we interpret image style and emotion. Previous color grading methods rely on patch-wise recoloring or fixed filter banks, struggling to generalize across creative intents or align with human aesthetic preferences. In this study, we propose AceTone, the first approach that supports multimodal conditioned color grading within a unified framework. AceTone formulates grading as a generative color transformation task, where a model directly produces 3D-LUTs conditioned on text prompts or reference images. We develop a VQ-VAE based tokenizer which compresses a $3\times32^3$ LUT vector to 64 discrete tokens with $ΔE<2$ fidelity. We further build a large-scale dataset, AceTone-800K, and train a vision-language model to predict LUT tokens, followed by reinforcement learning to align outputs with perceptual fidelity and aesthetics. Experiments show that AceTone achieves state-of-the-art performance on both text-guided and reference-guided grading tasks, improving LPIPS by up to 50% over existing methods. Human evaluations confirm that AceTone's results are visually pleasing and stylistically coherent, demonstrating a new pathway toward language-driven, aesthetic-aligned color grading.