AgentOCR: Reimagining Agent History via Optical Self-Compression

作者: Lang Feng, Fuchao Yang, Feng Chen, Xin Cheng, Haiyang Xu, Zhenglin Wan, Ming Yan, Bo An

分类: cs.LG, cs.AI

发布日期: 2026-01-08

备注: Work in progress

💡 一句话要点

AgentOCR：通过光学自压缩重构Agent历史，提升效率

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Agent系统 光学压缩 历史重构 强化学习 大型语言模型 视觉token 分段缓存

📋 核心要点

现有Agent系统因交互历史文本过长，导致token预算和内存消耗巨大，限制了实际部署。
AgentOCR将Agent历史表示为紧凑的渲染图像，利用视觉token的高信息密度，并采用分段光学缓存加速渲染。
AgentOCR通过自主压缩，使Agent能够自适应地平衡任务成功率和token效率，实验表明能显著降低token消耗。

📝 摘要（中文）

大型语言模型（LLMs）的最新进展使得能够利用强化学习（RL）训练多轮交互轨迹的Agent系统成为可能，但实际部署受到快速增长的文本历史记录的限制，这些记录会膨胀token预算和内存使用。我们引入AgentOCR，该框架通过将累积的观察-行动历史表示为紧凑的渲染图像，从而利用视觉token的卓越信息密度。为了使多轮rollout具有可扩展性，AgentOCR提出了分段光学缓存。通过将历史记录分解为可哈希的段并维护视觉缓存，该机制消除了冗余的重新渲染。除了固定渲染之外，AgentOCR还引入了Agent自主压缩，其中Agent主动发出压缩率，并使用压缩感知奖励进行训练，以自适应地平衡任务成功和token效率。我们在具有挑战性的Agent基准测试ALFWorld和基于搜索的QA上进行了广泛的实验。值得注意的是，结果表明AgentOCR保留了超过95％的基于文本的Agent性能，同时显着降低了token消耗（> 50％），从而实现了始终如一的token和内存效率。我们进一步的分析验证了分段光学缓存带来的20倍渲染加速以及自主压缩的有效策略平衡。

🔬 方法详解

问题定义：现有基于LLM的Agent系统在多轮交互过程中，会积累大量的文本历史记录，这些记录作为上下文输入到LLM中，导致token数量迅速增长，超出LLM的token窗口限制，同时也增加了内存消耗，严重影响了Agent的效率和可扩展性。现有方法通常采用截断或摘要等方式压缩历史，但可能丢失关键信息，影响Agent的决策。

核心思路：AgentOCR的核心思路是将Agent的观察-行动历史记录转换为图像，利用视觉token比文本token更高的信息密度，从而在不损失过多信息的情况下，显著减少token数量。此外，AgentOCR还引入了分段光学缓存和自主压缩机制，进一步提升效率。

技术框架：AgentOCR框架主要包含以下几个模块：1) 历史渲染模块：将Agent的观察和行动历史渲染成图像。2) 分段光学缓存模块：将历史记录分割成可哈希的片段，并缓存渲染后的图像，避免重复渲染。3) Agent自主压缩模块：Agent根据当前状态，自主决定压缩率，并根据压缩后的性能表现获得奖励。4) LLM推理模块：将渲染后的图像作为输入，输入到LLM中进行推理。

关键创新：AgentOCR的关键创新在于：1) 将Agent历史表示为图像，利用视觉token的高信息密度。2) 提出分段光学缓存，加速渲染过程。3) 引入Agent自主压缩，使Agent能够自适应地平衡任务成功率和token效率。与现有方法相比，AgentOCR能够在显著降低token消耗的同时，保持较高的任务性能。

关键设计：在历史渲染模块中，需要选择合适的渲染方式，例如将文本转换为像素图或使用预训练的视觉编码器。在分段光学缓存模块中，需要设计合适的哈希函数，以保证缓存的命中率。在Agent自主压缩模块中，需要设计合适的奖励函数，引导Agent学习到最佳的压缩策略。具体而言，奖励函数可以包含任务奖励和压缩惩罚项，通过调整两者的权重，可以控制Agent的压缩程度。

📊 实验亮点

实验结果表明，AgentOCR在ALFWorld和基于搜索的QA等基准测试中，能够在保持超过95%的文本Agent性能的同时，显著降低token消耗（>50%）。分段光学缓存实现了20倍的渲染加速。Agent自主压缩能够有效地平衡任务成功率和token效率。这些结果验证了AgentOCR的有效性和优越性。

🎯 应用场景

AgentOCR可应用于各种需要与环境进行多轮交互的Agent系统，例如对话Agent、游戏Agent、机器人控制等。通过降低token消耗和内存占用，AgentOCR可以提升Agent的效率和可扩展性，使其能够处理更复杂的任务和更长的交互历史。该技术对于资源受限的设备（如移动设备、嵌入式系统）上的Agent部署尤为重要。

📄 摘要（原文）

Recent advances in large language models (LLMs) enable agentic systems trained with reinforcement learning (RL) over multi-turn interaction trajectories, but practical deployment is bottlenecked by rapidly growing textual histories that inflate token budgets and memory usage. We introduce AgentOCR, a framework that exploits the superior information density of visual tokens by representing the accumulated observation-action history as a compact rendered image. To make multi-turn rollouts scalable, AgentOCR proposes segment optical caching. By decomposing history into hashable segments and maintaining a visual cache, this mechanism eliminates redundant re-rendering. Beyond fixed rendering, AgentOCR introduces agentic self-compression, where the agent actively emits a compression rate and is trained with compression-aware reward to adaptively balance task success and token efficiency. We conduct extensive experiments on challenging agentic benchmarks, ALFWorld and search-based QA. Remarkably, results demonstrate that AgentOCR preserves over 95\% of text-based agent performance while substantially reducing token consumption (>50\%), yielding consistent token and memory efficiency. Our further analysis validates a 20x rendering speedup from segment optical caching and the effective strategic balancing of self-compression.

AgentOCR: Reimagining Agent History via Optical Self-Compression

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册