Words & Weights: Streamlining Multi-Turn Interactions via Co-Adaptation

📄 arXiv: 2603.01375v1 📥 PDF

作者: Chenxing Wei, Hong Wang, Ying He, Zhongxiang Dai, Bo Jiang, F. Richard Yu, Yao Shu

分类: cs.AI, cs.LG

发布日期: 2026-03-02


💡 一句话要点

ROSA2:通过词与权重的协同自适应,优化多轮交互中的测试时策略调整。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多轮交互 测试时策略调整 协同自适应 文本梯度 参数更新

📋 核心要点

  1. 现有测试时策略调整方法未能有效解决多轮交互中意图歧义和模型能力不足的耦合问题。
  2. ROSA2框架通过联合优化词(指令)和权重,利用文本梯度纠正歧义,参数更新弥补能力差距。
  3. 实验结果表明,ROSA2在MATH数据集上显著提升性能并减少交互轮次,验证了协同自适应的有效性。

📝 摘要(中文)

本文针对多轮交互中的测试时策略调整(T2PAM)问题,提出ROSA2框架,旨在使大型语言模型(LLM)在推理时更好地适应动态用户需求。现有方法通常将测试时自适应视为单轴问题,要么仅优化指令(提示工程),要么仅调整权重(测试时训练),忽略了交互失败源于歧义和能力不足的耦合。ROSA2将交互重新定义为词和权重的异构空间上的联合优化问题。通过数学分解误差信号,ROSA2利用文本梯度来纠正意图歧义,并利用参数更新来弥补能力差距。理论证明,这种协同自适应严格减少了收敛所需的参数变化。实验表明,ROSA2在MATH数据集上优于现有基线30%,同时减少了40%的交互轮次,表明改进上下文可以释放参数更新的真正潜力。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在多轮交互中,如何更好地进行测试时策略调整(T2PAM)的问题。现有方法,如提示工程和测试时训练,通常独立进行,忽略了交互失败是由于用户意图的模糊性和模型自身能力不足共同导致的。这种单轴优化方式无法充分利用上下文信息,导致调整效率低下,难以适应动态变化的用户需求。

核心思路:ROSA2的核心思路是将多轮交互中的策略调整视为一个词(指令)和权重协同优化的过程。通过同时调整指令的语义清晰度和模型的参数,来弥补意图歧义和能力差距。这种协同自适应能够更有效地利用交互过程中的反馈信息,从而更快地收敛到最优策略。

技术框架:ROSA2框架主要包含以下几个关键步骤:1) 接收用户输入并生成模型输出;2) 计算输出与期望结果之间的误差信号;3) 将误差信号分解为文本梯度和参数更新两部分;4) 利用文本梯度调整指令,以消除意图歧义;5) 利用参数更新调整模型权重,以提升模型能力;6) 重复以上步骤,直到模型输出达到期望精度或达到最大交互轮数。

关键创新:ROSA2最重要的创新在于其协同自适应机制,它将指令优化和参数更新视为一个联合优化问题,而非两个独立的步骤。通过数学分解误差信号,ROSA2能够区分意图歧义和能力不足,并分别采用文本梯度和参数更新进行纠正。这种协同优化能够更有效地利用交互过程中的反馈信息,从而更快地收敛到最优策略。与现有方法相比,ROSA2能够更有效地解决意图歧义和能力不足的耦合问题,从而提升多轮交互的性能。

关键设计:ROSA2的关键设计包括:1) 误差信号分解方法,用于将误差信号分解为文本梯度和参数更新两部分;2) 文本梯度计算方法,用于衡量指令的语义清晰度;3) 参数更新策略,用于调整模型权重以提升模型能力。具体而言,文本梯度可以通过计算指令的困惑度或使用梯度下降方法来获得。参数更新策略可以采用常见的优化算法,如Adam或SGD。论文中可能还涉及一些超参数的设置,例如学习率、正则化系数等,这些参数需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ROSA2在MATH数据集上取得了显著的性能提升,超越了现有最先进的基线方法30%。同时,ROSA2还能够显著减少交互轮次,降低了40%,表明其能够更快地适应用户需求并完成任务。这些实验结果充分验证了ROSA2框架的有效性和优越性。

🎯 应用场景

ROSA2框架可广泛应用于需要多轮交互的智能系统中,例如智能客服、对话式问答系统、个性化推荐系统等。通过提升模型在交互过程中的自适应能力,ROSA2可以显著改善用户体验,提高任务完成效率。未来,ROSA2有望应用于更复杂的交互场景,例如人机协作、机器人控制等。

📄 摘要(原文)

Test-time policy adaptation for multi-turn interactions (T2PAM) is essential for aligning Large Language Models (LLMs) with dynamic user needs during inference time. However, existing paradigms commonly treat test-time adaptation as a single-axis problem, either purely refining instructions (Prompt Engineering) or only adjusting weights (Test-Time Training), ignoring that interaction failures stem from a coupled mix of ambiguity and incapacity. We argue that these two optimization paths are not merely additive but synergistic: semantic clarity acts as a pre-conditioner for effective parameter updates. To this end, we propose ROSA2, a framework that reformulates interaction as a joint optimization problem over the heterogeneous space of Words and Weights. By mathematically decomposing the error signal, ROSA2 utilizes textual gradients to rectify intent ambiguity and parameter updates to bridge capability gaps. Theoretically, we prove that this co-adaptation strictly reduces the required parameter shift for convergence. Empirically, ROSA2 outperforms state-of-the-art baselines by 30% on MATH while reducing interaction turns by 40%, demonstrating that refining the context unlocks the true potential of parameter updates.