Signals: Trajectory Sampling and Triage for Agentic Interactions

作者: Shuguang Chen, Adil Hafeez, Salman Paracha

分类: cs.AI, cs.CL

发布日期: 2026-04-01

💡 一句话要点

提出基于信号的Agent交互轨迹采样与分流框架，提升后部署优化效率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Agent交互 轨迹采样 后部署优化 信号处理 LLM应用

📋 核心要点

Agent应用部署后优化面临轨迹数据量大、审查成本高的挑战。
提出基于轻量级信号的轨迹分流框架，无需模型调用即可识别信息量大的交互。
实验表明，该方法在信息率和效率方面优于启发式过滤和随机采样。

📝 摘要（中文）

基于大型语言模型的Agent应用日益依赖于包含规划、动作执行和环境反馈的多步交互循环。虽然此类系统已大规模部署，但部署后的改进仍然具有挑战性。Agent轨迹数据量大且不确定，无论是人工审查还是使用辅助LLM，审查每个轨迹都非常缓慢且成本高昂。我们提出了一种轻量级的、基于信号的框架，用于对Agent交互轨迹进行分流。我们的方法从实时交互中计算廉价且广泛适用的信号，并将它们作为结构化属性附加到轨迹中，从而识别可能提供信息的交互，而不会影响在线Agent的行为。我们将信号组织成一个粗粒度的分类，涵盖交互（未对齐、停滞、脱离、满意）、执行（失败、循环）和环境（耗尽），旨在无需模型调用即可进行计算。在一个对τ-bench（一种广泛使用的工具增强Agent评估基准）的受控注释研究中，我们表明，基于信号的采样实现了82%的信息率，而启发式过滤为74%，随机采样为54%，每个信息轨迹的效率提高了1.52倍。该优势在奖励层和任务领域中都很稳健，证实了信号提供了真正的每个轨迹的信息增益，而不仅仅是过度采样明显的失败。这些结果表明，轻量级信号可以作为Agent系统的实用采样基础设施，并为偏好数据构建和部署后优化提供了一条途径。

🔬 方法详解

问题定义：现有Agent应用依赖多步交互循环，产生大量非确定性轨迹数据。人工或LLM辅助审查成本高昂，效率低下，难以进行有效的后部署优化。因此，需要一种高效的方法来筛选出信息量大的轨迹，用于后续的改进和学习。

核心思路：核心在于利用从交互过程中提取的“信号”来表征轨迹的信息量。这些信号计算成本低廉，且能反映交互、执行和环境的不同方面。通过对轨迹附加这些信号，可以实现高效的轨迹分流，从而优先审查和利用更有价值的交互数据。

技术框架：该框架主要包含以下几个阶段：1) 信号计算：从Agent的交互过程中提取预定义的信号，这些信号涵盖交互（如未对齐、停滞）、执行（如失败、循环）和环境（如资源耗尽）等方面。2) 轨迹标注：将计算得到的信号作为结构化属性附加到每个Agent交互轨迹上。3) 轨迹分流：基于信号对轨迹进行排序和筛选，选择信息量大的轨迹进行后续分析和优化。4) 优化迭代：利用筛选出的轨迹数据进行Agent的改进和学习，例如通过偏好学习或强化学习等方法。

关键创新：最重要的创新在于提出了一种轻量级的、基于信号的轨迹分流方法。与传统的依赖人工审查或昂贵的LLM辅助审查的方法不同，该方法利用计算成本低的信号来表征轨迹的信息量，从而实现了高效的轨迹筛选。此外，信号的分类方式也考虑了交互、执行和环境的多个维度，使得信号能够更全面地反映轨迹的特征。

关键设计：关键设计包括：1) 信号的选取：选择了易于计算且能反映交互质量的信号，避免了复杂的模型调用。2) 信号的分类：将信号分为交互、执行和环境三个维度，使得信号能够更全面地反映轨迹的特征。3) 采样策略：可以根据不同的优化目标设计不同的采样策略，例如优先选择包含失败信号的轨迹，或者优先选择包含停滞信号的轨迹。

📊 实验亮点

实验结果表明，基于信号的采样方法在τ-bench基准测试中实现了82%的信息率，显著优于启发式过滤（74%）和随机采样（54%）。此外，该方法还实现了1.52倍的效率提升，即每个信息轨迹的成本更低。该优势在不同的奖励层和任务领域中都保持稳定，表明该方法具有良好的泛化能力。

🎯 应用场景

该研究成果可应用于各种基于Agent的系统，例如工具增强的LLM应用、机器人控制、游戏AI等。通过高效地筛选出信息量大的交互轨迹，可以加速Agent的后部署优化，提升Agent的性能和鲁棒性。此外，该方法还可以用于构建高质量的偏好数据集，用于训练更符合人类意图的Agent。

📄 摘要（原文）

Agentic applications based on large language models increasingly rely on multi-step interaction loops involving planning, action execution, and environment feedback. While such systems are now deployed at scale, improving them post-deployment remains challenging. Agent trajectories are voluminous and non-deterministic, and reviewing each one, whether through human review or auxiliary LLMs, is slow and cost-prohibitive. We propose a lightweight, signal-based framework for triaging agentic interaction trajectories. Our approach computes cheap, broadly applicable signals from live interactions and attaches them as structured attributes for trajectory triage, identifying interactions likely to be informative without affecting online agent behavior. We organize signals into a coarse-grained taxonomy spanning interaction (misalignment, stagnation, disengagement, satisfaction), execution (failure, loop), and environment (exhaustion), designed for computation without model calls. In a controlled annotation study on $τ$-bench, a widely used benchmark for tool-augmented agent evaluation, we show that signal-based sampling achieves an 82\% informativeness rate compared to 74\% for heuristic filtering and 54\% for random sampling, with a 1.52x efficiency gain per informative trajectory. The advantage is robust across reward strata and task domains, confirming that signals provide genuine per-trajectory informativeness gains rather than merely oversampling obvious failures. These results show that lightweight signals can serve as practical sampling infrastructure for agentic systems, and suggest a path toward preference data construction and post-deployment optimization.

Signals: Trajectory Sampling and Triage for Agentic Interactions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理