AgentOCR: Reimagining Agent History via Optical Self-Compression

📄 arXiv: 2601.04786v1 📥 PDF

作者: Lang Feng, Fuchao Yang, Feng Chen, Xin Cheng, Haiyang Xu, Zhenglin Wan, Ming Yan, Bo An

分类: cs.LG, cs.AI

发布日期: 2026-01-08

备注: Work in progress


💡 一句话要点

AgentOCR:通过光学自压缩重构Agent历史,提升效率

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Agent系统 光学压缩 历史重构 强化学习 大型语言模型 视觉token 分段缓存

📋 核心要点

  1. 现有Agent系统因交互历史文本过长,导致token预算和内存消耗巨大,限制了实际部署。
  2. AgentOCR将Agent历史表示为紧凑的渲染图像,利用视觉token的高信息密度,并采用分段光学缓存加速渲染。
  3. AgentOCR通过自主压缩,使Agent能够自适应地平衡任务成功率和token效率,实验表明能显著降低token消耗。

📝 摘要(中文)

大型语言模型(LLMs)的最新进展使得能够利用强化学习(RL)训练多轮交互轨迹的Agent系统成为可能,但实际部署受到快速增长的文本历史记录的限制,这些记录会膨胀token预算和内存使用。我们引入AgentOCR,该框架通过将累积的观察-行动历史表示为紧凑的渲染图像,从而利用视觉token的卓越信息密度。为了使多轮rollout具有可扩展性,AgentOCR提出了分段光学缓存。通过将历史记录分解为可哈希的段并维护视觉缓存,该机制消除了冗余的重新渲染。除了固定渲染之外,AgentOCR还引入了Agent自主压缩,其中Agent主动发出压缩率,并使用压缩感知奖励进行训练,以自适应地平衡任务成功和token效率。我们在具有挑战性的Agent基准测试ALFWorld和基于搜索的QA上进行了广泛的实验。值得注意的是,结果表明AgentOCR保留了超过95%的基于文本的Agent性能,同时显着降低了token消耗(> 50%),从而实现了始终如一的token和内存效率。我们进一步的分析验证了分段光学缓存带来的20倍渲染加速以及自主压缩的有效策略平衡。

🔬 方法详解

问题定义:现有基于LLM的Agent系统在多轮交互过程中,会积累大量的文本历史记录,这些记录作为上下文输入到LLM中,导致token数量迅速增长,超出LLM的token窗口限制,同时也增加了内存消耗,严重影响了Agent的效率和可扩展性。现有方法通常采用截断或摘要等方式压缩历史,但可能丢失关键信息,影响Agent的决策。

核心思路:AgentOCR的核心思路是将Agent的观察-行动历史记录转换为图像,利用视觉token比文本token更高的信息密度,从而在不损失过多信息的情况下,显著减少token数量。此外,AgentOCR还引入了分段光学缓存和自主压缩机制,进一步提升效率。

技术框架:AgentOCR框架主要包含以下几个模块:1) 历史渲染模块:将Agent的观察和行动历史渲染成图像。2) 分段光学缓存模块:将历史记录分割成可哈希的片段,并缓存渲染后的图像,避免重复渲染。3) Agent自主压缩模块:Agent根据当前状态,自主决定压缩率,并根据压缩后的性能表现获得奖励。4) LLM推理模块:将渲染后的图像作为输入,输入到LLM中进行推理。

关键创新:AgentOCR的关键创新在于:1) 将Agent历史表示为图像,利用视觉token的高信息密度。2) 提出分段光学缓存,加速渲染过程。3) 引入Agent自主压缩,使Agent能够自适应地平衡任务成功率和token效率。与现有方法相比,AgentOCR能够在显著降低token消耗的同时,保持较高的任务性能。

关键设计:在历史渲染模块中,需要选择合适的渲染方式,例如将文本转换为像素图或使用预训练的视觉编码器。在分段光学缓存模块中,需要设计合适的哈希函数,以保证缓存的命中率。在Agent自主压缩模块中,需要设计合适的奖励函数,引导Agent学习到最佳的压缩策略。具体而言,奖励函数可以包含任务奖励和压缩惩罚项,通过调整两者的权重,可以控制Agent的压缩程度。

📊 实验亮点

实验结果表明,AgentOCR在ALFWorld和基于搜索的QA等基准测试中,能够在保持超过95%的文本Agent性能的同时,显著降低token消耗(>50%)。分段光学缓存实现了20倍的渲染加速。Agent自主压缩能够有效地平衡任务成功率和token效率。这些结果验证了AgentOCR的有效性和优越性。

🎯 应用场景

AgentOCR可应用于各种需要与环境进行多轮交互的Agent系统,例如对话Agent、游戏Agent、机器人控制等。通过降低token消耗和内存占用,AgentOCR可以提升Agent的效率和可扩展性,使其能够处理更复杂的任务和更长的交互历史。该技术对于资源受限的设备(如移动设备、嵌入式系统)上的Agent部署尤为重要。

📄 摘要(原文)

Recent advances in large language models (LLMs) enable agentic systems trained with reinforcement learning (RL) over multi-turn interaction trajectories, but practical deployment is bottlenecked by rapidly growing textual histories that inflate token budgets and memory usage. We introduce AgentOCR, a framework that exploits the superior information density of visual tokens by representing the accumulated observation-action history as a compact rendered image. To make multi-turn rollouts scalable, AgentOCR proposes segment optical caching. By decomposing history into hashable segments and maintaining a visual cache, this mechanism eliminates redundant re-rendering. Beyond fixed rendering, AgentOCR introduces agentic self-compression, where the agent actively emits a compression rate and is trained with compression-aware reward to adaptively balance task success and token efficiency. We conduct extensive experiments on challenging agentic benchmarks, ALFWorld and search-based QA. Remarkably, results demonstrate that AgentOCR preserves over 95\% of text-based agent performance while substantially reducing token consumption (>50\%), yielding consistent token and memory efficiency. Our further analysis validates a 20x rendering speedup from segment optical caching and the effective strategic balancing of self-compression.