Icon$^{2}$: Aligning Large Language Models Using Self-Synthetic Preference Data via Inherent Regulation

作者: Qiyuan Chen, Hongsen Huang, Qian Shao, Jiahe Chen, Jintai Chen, Hongxia Xu, Renjie Hua, Ren Chuan, Jian Wu

分类: cs.CL, cs.AI

发布日期: 2025-09-06

备注: EMNLP 2025 Main

💡 一句话要点

Icon²：利用LLM内在调控的自合成偏好数据对齐大语言模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型对齐 偏好学习 自合成数据 内在调控 表征学习

📋 核心要点

现有偏好数据集构建方法依赖预收集指令，易导致与目标模型分布不匹配，且抽样多响应计算开销大。
Icon²利用LLM表征空间的内在调控，提取分层方向向量编码偏好，过滤自合成指令，并双向控制token表征。
实验表明，Icon²在AlpacaEval 2.0和Arena-Hard上分别提升13.89%和13.45%胜率，计算成本降低高达48.1%。

📝 摘要（中文）

大型语言模型（LLMs）需要高质量的偏好数据集来与人类偏好对齐。然而，构建此类数据集的传统方法面临重大挑战：依赖于预先收集的指令通常导致与目标模型存在分布不匹配，而对多个随机响应进行抽样的需求引入了大量的计算开销。本文通过利用LLM表征空间的内在调控来进行高效且定制化的偏好数据集构建，从而探索了一种范式转变，命名为Icon²。具体来说，它首先提取分层方向向量来编码复杂的人类偏好，然后使用这些向量来过滤自合成指令，基于它们的内在一致性。在解码过程中，应用双向内在控制来引导token表征，从而能够精确生成具有清晰对齐区分的响应对。实验结果表明，在对齐和效率方面都有显著的改进。Llama3-8B和Qwen2-7B在AlpacaEval 2.0上平均胜率提高了13.89%，在Arena-Hard上提高了13.45%，同时计算成本降低了高达48.1%。

🔬 方法详解

问题定义：现有的大语言模型对齐方法依赖于人工标注或预先收集的指令数据集，这些数据集往往存在分布偏移的问题，无法很好地代表目标模型的实际应用场景。此外，为了构建高质量的偏好数据集，通常需要对每个指令生成多个不同的响应，并进行两两比较，这带来了巨大的计算开销。因此，如何高效地构建与目标模型分布一致且具有明确偏好区分的训练数据是当前面临的关键问题。

核心思路：Icon²的核心思路是利用大语言模型自身表征空间的内在调控能力，自动合成高质量的偏好数据。具体来说，它首先通过提取模型内部的层级方向向量来编码人类偏好，然后利用这些向量来过滤自合成的指令，确保指令与偏好的一致性。在生成响应时，通过双向内在控制来引导token的表征，从而生成具有明确对齐区分的响应对。这种方法避免了对外部数据的依赖，并减少了计算开销。

技术框架：Icon²的整体框架包含以下几个主要模块： 1. 偏好向量提取：从预训练的LLM中提取层级的方向向量，用于编码人类偏好。 2. 指令过滤：使用偏好向量过滤自合成的指令，确保指令与偏好的一致性。 3. 响应生成：通过双向内在控制来引导token的表征，生成具有明确对齐区分的响应对。 4. 模型训练：使用生成的偏好数据集来训练LLM，使其与人类偏好对齐。

关键创新：Icon²最重要的创新点在于利用了LLM自身的表征空间来进行偏好数据的合成和过滤。与传统的依赖外部数据的方法不同，Icon²能够更好地适应目标模型的分布，并生成具有明确偏好区分的训练数据。此外，双向内在控制机制能够更精确地控制响应的生成过程，从而提高对齐的效率。

关键设计：在偏好向量提取方面，论文采用了层级化的方法，从不同的网络层提取方向向量，以捕捉不同层次的语义信息。在指令过滤方面，论文设计了一种基于向量相似度的过滤机制，用于筛选与偏好向量一致的指令。在响应生成方面，论文采用了双向内在控制机制，通过调整token的表征来引导响应的生成，使其更符合人类偏好。具体的参数设置和损失函数等技术细节在论文中有详细描述。

📊 实验亮点

实验结果表明，Icon²在Llama3-8B和Qwen2-7B模型上取得了显著的性能提升。在AlpacaEval 2.0评估基准上，平均胜率提高了13.89%，在更具挑战性的Arena-Hard评估基准上，平均胜率提高了13.45%。同时，Icon²方法将计算成本降低了高达48.1%，证明了其在对齐效率方面的优势。

🎯 应用场景

Icon²方法可广泛应用于大语言模型的对齐训练，尤其是在缺乏高质量人工标注数据或计算资源受限的场景下。该方法能够提升LLM在对话生成、文本摘要、代码生成等任务中的性能，使其更好地符合人类的价值观和偏好。未来，该技术有望进一步扩展到多模态大模型，实现更安全、可靠和负责任的人工智能系统。

📄 摘要（原文）

Large Language Models (LLMs) require high quality preference datasets to align with human preferences. However, conventional methods for constructing such datasets face significant challenges: reliance on pre-collected instructions often leads to distribution mismatches with target models, while the need for sampling multiple stochastic responses introduces substantial computational overhead. In this work, we explore a paradigm shift by leveraging inherent regulation of LLMs' representation space for efficient and tailored preference dataset construction, named Icon$^{2}$. Specifically, it first extracts layer-wise direction vectors to encode sophisticated human preferences and then uses these vectors to filter self-synthesized instructions based on their inherent consistency. During decoding, bidirectional inherent control is applied to steer token representations, enabling the precise generation of response pairs with clear alignment distinctions. Experimental results demonstrate significant improvements in both alignment and efficiency. Llama3-8B and Qwen2-7B achieve an average win rate improvement of 13.89% on AlpacaEval 2.0 and 13.45% on Arena-Hard, while reducing computational costs by up to 48.1%.

Icon$^{2}$: Aligning Large Language Models Using Self-Synthetic Preference Data via Inherent Regulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册