Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization
作者: Mizanur Rahman, Mohammed Saidul Islam, Md Tahmid Rahman Laskar, Shafiq Joty, Enamul Hoque
分类: cs.CL
发布日期: 2026-01-08
备注: Accepted to EACL Main Conference
🔗 代码/项目: GITHUB
💡 一句话要点
提出RL-Text2Vis,利用多目标强化学习框架提升文本到可视化的语义对齐与质量。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本到可视化 强化学习 多目标优化 代码生成 可视化质量
📋 核心要点
- 现有Text2Vis系统生成的图表缺乏语义对齐和清晰度,且传统监督学习方法难以捕捉执行后的反馈,导致可视化质量难以提升。
- 论文提出RL-Text2Vis框架,利用Group Relative Policy Optimization (GRPO) 和多目标奖励,联合优化文本准确性、代码有效性和可视化质量。
- 实验结果表明,RL-Text2Vis在图表质量和代码执行成功率上均有显著提升,并在领域外数据集上表现出良好的泛化能力。
📝 摘要(中文)
本文提出了一种用于文本到可视化(Text2Vis)生成的强化学习框架RL-Text2Vis,旨在将表格数据的自然语言查询转化为简洁的答案和可执行的可视化。尽管闭源LLM可以生成功能代码,但生成的图表通常缺乏语义对齐和清晰度,这些特性只能在执行后评估。开源模型在这方面表现更差,经常产生不可执行或视觉效果差的输出。有监督微调可以提高代码的可执行性,但无法提升整体可视化质量,因为传统的SFT损失无法捕捉执行后的反馈。RL-Text2Vis基于Group Relative Policy Optimization (GRPO),使用一种新颖的多目标奖励,联合优化文本准确性、代码有效性和可视化质量。通过训练Qwen2.5模型(7B和14B),RL-Text2Vis在Text2Vis基准测试中,图表质量比GPT-4o提高了22%,代码执行成功率相对于零样本基线提高了78%到97%。该模型显著优于强大的零样本和有监督基线,并展示了对领域外数据集(如VIS-Eval和NVBench)的强大泛化能力。这些结果表明GRPO是可视化生成中结构化、多模态推理的有效策略。代码已开源。
🔬 方法详解
问题定义:Text2Vis任务旨在将自然语言查询转化为可执行的代码,并生成高质量的可视化图表。现有方法,特别是基于开源LLM的方法,在代码可执行性和可视化质量方面存在不足。闭源模型虽然能生成代码,但图表语义对齐和清晰度不足。监督微调虽然能提高代码执行成功率,但无法有效提升可视化质量,因为其损失函数无法利用执行后的反馈信息。
核心思路:论文的核心思路是利用强化学习,通过执行后的反馈来优化Text2Vis模型的生成策略。具体来说,通过设计一个多目标奖励函数,同时考虑文本准确性、代码有效性和可视化质量,引导模型学习生成更符合用户意图且高质量的可视化图表。Group Relative Policy Optimization (GRPO) 算法被用于稳定训练过程。
技术框架:RL-Text2Vis框架主要包含以下几个阶段:1) 使用LLM生成代码和可视化图表;2) 执行生成的代码,得到可视化结果;3) 根据执行结果和用户查询,计算多目标奖励;4) 使用GRPO算法,根据奖励更新LLM的策略。整体流程是一个循环迭代的过程,通过不断地试错和学习,模型逐渐提升生成高质量可视化图表的能力。
关键创新:论文的关键创新在于提出了一个多目标奖励函数,该函数能够综合考虑文本准确性、代码有效性和可视化质量。传统方法通常只关注代码的可执行性,而忽略了可视化结果的质量。此外,将GRPO算法应用于Text2Vis任务,能够有效地稳定强化学习的训练过程,避免策略崩溃。
关键设计:多目标奖励函数的设计是关键。它由三个部分组成:文本准确性奖励,衡量生成结果与用户查询的相关性;代码有效性奖励,衡量代码是否可以成功执行;可视化质量奖励,衡量生成图表的美观程度和信息表达能力。具体实现中,文本准确性奖励可以使用BLEU或ROUGE等指标计算,代码有效性奖励可以直接根据代码执行结果判断,可视化质量奖励则需要人工评估或使用预训练的视觉质量评估模型。GRPO算法的具体参数设置需要根据具体任务进行调整。
📊 实验亮点
RL-Text2Vis在Text2Vis基准测试中,图表质量比GPT-4o提高了22%,代码执行成功率相对于零样本基线提高了78%到97%。此外,该模型在VIS-Eval和NVBench等领域外数据集上表现出良好的泛化能力,表明其具有较强的鲁棒性和实用性。
🎯 应用场景
该研究成果可应用于智能数据分析、自动化报告生成、以及面向非专业用户的可视化工具等领域。通过将自然语言查询转化为高质量的可视化图表,可以降低数据分析的门槛,提高数据利用效率,并为用户提供更直观的数据洞察。
📄 摘要(原文)
Text-to-Visualization (Text2Vis) systems translate natural language queries over tabular data into concise answers and executable visualizations. While closed-source LLMs generate functional code, the resulting charts often lack semantic alignment and clarity, qualities that can only be assessed post-execution. Open-source models struggle even more, frequently producing non-executable or visually poor outputs. Although supervised fine-tuning can improve code executability, it fails to enhance overall visualization quality, as traditional SFT loss cannot capture post-execution feedback. To address this gap, we propose RL-Text2Vis, the first reinforcement learning framework for Text2Vis generation. Built on Group Relative Policy Optimization (GRPO), our method uses a novel multi-objective reward that jointly optimizes textual accuracy, code validity, and visualization quality using post-execution feedback. By training Qwen2.5 models (7B and 14B), RL-Text2Vis achieves a 22% relative improvement in chart quality over GPT-4o on the Text2Vis benchmark and boosts code execution success from 78% to 97% relative to its zero-shot baseline. Our models significantly outperform strong zero-shot and supervised baselines and also demonstrate robust generalization to out-of-domain datasets like VIS-Eval and NVBench. These results establish GRPO as an effective strategy for structured, multimodal reasoning in visualization generation. We release our code at https://github.com/vis-nlp/RL-Text2Vis.