Universal YOCO for Efficient Depth Scaling

作者: Yutao Sun, Li Dong, Tianzhu Ye, Shaohan Huang, Jianyong Wang, Furu Wei

分类: cs.CL

发布日期: 2026-04-01

💡 一句话要点

提出Universal YOCO以解决标准Transformer推理效率低下问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推理效率 YOCO架构 递归计算 高效注意力 自然语言处理 长文本理解

📋 核心要点

现有标准Transformer在推理时计算效率低，传统循环策略导致高开销和KV缓存膨胀。
提出Universal YOCO（YOCO-U），结合YOCO架构与递归计算，通过参数共享实现多次迭代，提升效率。
实验结果显示，YOCO-U在一般和长上下文基准测试中表现竞争力，改善了令牌利用率和扩展行为。

📝 摘要（中文）

测试时间缩放的兴起显著提升了大型语言模型（LLMs）的推理和智能能力。然而，标准Transformer在推理时计算效率上存在挑战，传统的循环策略导致高计算开销，并且KV缓存随着模型深度增加而膨胀。本文提出Universal YOCO（YOCO-U），结合YOCO解码器-解码器架构与递归计算，达到协同效应。YOCO-U实现了一个通用自解码器，通过参数共享执行多次迭代，同时将迭代过程限制在浅层高效注意力层。这种结合在能力与效率之间取得了良好的平衡，YOCO-U在一般和长上下文基准测试中表现出色，证明了高效注意力架构与递归计算的整合是可扩展LLMs的有前景方向。

🔬 方法详解

问题定义：本文旨在解决标准Transformer在推理时计算效率低下的问题，尤其是传统循环策略带来的高计算开销和KV缓存的膨胀现象。

核心思路：提出Universal YOCO（YOCO-U），通过结合YOCO解码器-解码器架构与递归计算，利用参数共享实现多次迭代，从而提高推理效率和能力。

技术框架：YOCO-U基于YOCO框架，包含一个通用自解码器，执行多次迭代并限制在浅层高效注意力层，提供恒定的全局KV缓存和线性预填充。

关键创新：YOCO-U的主要创新在于将高效注意力架构与递归计算相结合，形成的协同效应在能力与效率之间取得了优良的平衡，这是YOCO和递归单独实现的效果所无法比拟的。

关键设计：YOCO-U的设计包括参数共享机制、浅层高效注意力层的限制，以及在保持低开销的同时增强表示深度的部分递归策略。具体的参数设置和损失函数设计在实验中进行了优化。

🖼️ 关键图片

📊 实验亮点

实验结果表明，YOCO-U在一般和长上下文基准测试中表现出色，显示出在推理效率和能力之间的良好平衡。具体性能数据表明，YOCO-U在多个任务上超越了现有基线，提升幅度显著，证明了其有效性。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、对话系统和长文本理解等。通过提升大型语言模型的推理效率，YOCO-U可以在实时应用中提供更快的响应时间和更高的准确性，具有重要的实际价值和未来影响。

📄 摘要（原文）

The rise of test-time scaling has remarkably boosted the reasoning and agentic proficiency of Large Language Models (LLMs). Yet, standard Transformers struggle to scale inference-time compute efficiently, as conventional looping strategies suffer from high computational overhead and a KV cache that inflates alongside model depth. We present Universal YOCO (YOCO-U), which combines the YOCO decoder-decoder architecture with recursive computation to achieve a synergistic effect greater than either alone. Built on the YOCO framework, YOCO-U implements a Universal Self-Decoder that performs multiple iterations via parameter sharing, while confining the iterative process to shallow, efficient-attention layers. This combination yields a favorable capability-efficiency tradeoff that neither YOCO nor recursion achieves independently. The YOCO architecture provides a constant global KV cache and linear pre-filling, while partial recursion enhances representational depth with limited overhead. Together, YOCO-U improves token utility and scaling behavior while maintaining efficient inference. Empirical results confirm that YOCO-U remains highly competitive in general and long-context benchmarks, demonstrating that the integration of efficient-attention architectures and recursive computation is a promising direction for scalable LLMs.

Universal YOCO for Efficient Depth Scaling

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理