VISA: Value Injection via Shielded Adaptation for Personalized LLM Alignment

📄 arXiv: 2603.04822v1 📥 PDF

作者: Jiawei Chen, Tianzhuo Yang, Guoxi Zhang, Jiaming Ji, Yaodong Yang, Juntao Dai

分类: cs.AI

发布日期: 2026-03-05


💡 一句话要点

提出VISA框架,通过屏蔽适应的值注入实现个性化LLM对齐。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM对齐 价值注入 屏蔽适应 个性化 组相对策略优化

📋 核心要点

  1. 现有LLM对齐方法(如RLHF)仅处理粗粒度属性,无法实现细致入微的人类价值观对齐。
  2. VISA通过闭环框架,利用高精度值检测器、语义到值转换器和核心值重写器实现价值注入。
  3. 实验表明,VISA在精确控制模型价值表达的同时,保持了事实一致性和通用能力,优于现有方法。

📝 摘要(中文)

将大型语言模型(LLM)与细致入微的人类价值观对齐仍然是一个关键挑战,因为现有方法(如基于人类反馈的强化学习RLHF)通常只处理粗粒度的属性。实际上,在特定任务数据集上微调LLM以优化价值对齐不可避免地会产生对齐税:由于从训练数据中吸收潜在偏差,模型预先校准的价值体系会显著漂移,而微调过程也会导致生成的响应中出现严重的幻觉和语义信息丢失。为了解决这个问题,我们提出了VISA(Value Injection via Shielded Adaptation,通过屏蔽适应的值注入),这是一个旨在应对这种权衡的闭环框架。VISA的架构具有高精度值检测器、语义到值转换器和核心值重写器。值重写器通过组相对策略优化(GRPO)进行训练,该优化使用复合奖励函数,同时优化细粒度的值精度和语义完整性的保持。通过学习平衡这些竞争目标的最佳策略,VISA有效地减轻了对齐税,同时保持对原始知识的忠诚。我们的实验表明,这种方法能够精确控制模型的值表达,同时保持其事实一致性和通用能力,显著优于标准微调方法和基于提示的基线,包括GPT-4o。

🔬 方法详解

问题定义:论文旨在解决LLM对齐过程中出现的“对齐税”问题,即在特定任务数据集上微调LLM以优化价值对齐时,模型原有的价值体系会发生漂移,并且容易产生幻觉和语义信息丢失。现有方法无法在价值对齐和知识保持之间取得平衡。

核心思路:论文的核心思路是通过一个闭环框架VISA,显式地注入目标价值,同时通过屏蔽适应(Shielded Adaptation)来避免对原始知识的过度修改。VISA包含一个价值检测器、一个语义到价值的转换器和一个价值重写器,通过协同工作,实现精确的价值控制和知识保持。

技术框架:VISA框架包含三个主要模块:1) 高精度价值检测器:用于检测生成文本中存在的价值倾向。2) 语义到价值转换器:将语义信息转换为价值表示,用于指导价值重写。3) 核心价值重写器:根据价值检测器和转换器的结果,修改生成文本,使其符合目标价值,同时保持语义完整性。价值重写器通过组相对策略优化(GRPO)进行训练。

关键创新:VISA的关键创新在于其闭环反馈机制和屏蔽适应策略。闭环反馈机制允许模型根据价值检测器的反馈不断调整生成文本,从而实现精确的价值控制。屏蔽适应策略则通过优化一个复合奖励函数,同时考虑价值精度和语义完整性,从而避免对原始知识的过度修改。GRPO的使用也允许模型在多个价值目标之间进行权衡。

关键设计:价值重写器的训练使用组相对策略优化(GRPO),奖励函数由两部分组成:一部分衡量生成文本的价值精度,另一部分衡量生成文本的语义完整性。具体来说,价值精度可以通过与目标价值的相似度来衡量,语义完整性可以通过与原始生成文本的相似度来衡量。GRPO的目标是找到一个策略,使得在满足价值精度要求的前提下,尽可能地保持语义完整性。论文中未明确给出价值检测器、语义到价值转换器和价值重写器的具体网络结构,这部分信息未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VISA框架在价值精度、事实一致性和通用能力方面均优于标准微调方法和基于提示的基线,包括GPT-4o。具体性能数据未知,但论文强调VISA能够显著减轻对齐税,并在保持知识的同时实现精确的价值控制。

🎯 应用场景

VISA框架可应用于各种需要个性化价值对齐的LLM应用场景,例如:个性化教育、心理咨询、法律咨询等。通过注入特定的价值观,可以使LLM更好地服务于特定人群或满足特定需求,同时避免产生有害或不符合伦理的输出。该研究有助于提升LLM在实际应用中的可靠性和安全性。

📄 摘要(原文)

Aligning Large Language Models (LLMs) with nuanced human values remains a critical challenge, as existing methods like Reinforcement Learning from Human Feedback (RLHF) often handle only coarse-grained attributes. In practice, fine-tuning LLMs on task-specific datasets to optimize value alignment inevitably incurs an alignment tax: the model's pre-calibrated value system drifts significantly due to latent bias absorption from training data, while the fine-tuning process also causes severe hallucinations and semantic information loss in generated responses. To address this, we propose VISA (Value Injection via Shielded Adaptation), a closed-loop framework designed to navigate this trade-off. VISA's architecture features a high-precision value detector, a semantic-to-value translator, and a core value-rewriter. The value-rewriter is trained via Group Relative Policy Optimization (GRPO) with a composite reward function that simultaneously optimizes for fine-grained value precision, and the preservation of semantic integrity. By learning an optimal policy to balance these competing objectives, VISA effectively mitigates the alignment tax while staying loyal to the original knowledge. Our experiments demonstrate that this approach enables precise control over a model's value expression while maintaining its factual consistency and general capabilities, significantly outperforming both standard fine-tuning methods and prompting-based baselines, including GPT-4o.