Universal YOCO for Efficient Depth Scaling
作者: Yutao Sun, Li Dong, Tianzhu Ye, Shaohan Huang, Jianyong Wang, Furu Wei
分类: cs.CL
发布日期: 2026-04-01
💡 一句话要点
提出Universal YOCO以解决标准Transformer推理效率低下问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 推理效率 YOCO架构 递归计算 高效注意力 自然语言处理 长文本理解
📋 核心要点
- 现有标准Transformer在推理时计算效率低,传统循环策略导致高开销和KV缓存膨胀。
- 提出Universal YOCO(YOCO-U),结合YOCO架构与递归计算,通过参数共享实现多次迭代,提升效率。
- 实验结果显示,YOCO-U在一般和长上下文基准测试中表现竞争力,改善了令牌利用率和扩展行为。
📝 摘要(中文)
测试时间缩放的兴起显著提升了大型语言模型(LLMs)的推理和智能能力。然而,标准Transformer在推理时计算效率上存在挑战,传统的循环策略导致高计算开销,并且KV缓存随着模型深度增加而膨胀。本文提出Universal YOCO(YOCO-U),结合YOCO解码器-解码器架构与递归计算,达到协同效应。YOCO-U实现了一个通用自解码器,通过参数共享执行多次迭代,同时将迭代过程限制在浅层高效注意力层。这种结合在能力与效率之间取得了良好的平衡,YOCO-U在一般和长上下文基准测试中表现出色,证明了高效注意力架构与递归计算的整合是可扩展LLMs的有前景方向。
🔬 方法详解
问题定义:本文旨在解决标准Transformer在推理时计算效率低下的问题,尤其是传统循环策略带来的高计算开销和KV缓存的膨胀现象。
核心思路:提出Universal YOCO(YOCO-U),通过结合YOCO解码器-解码器架构与递归计算,利用参数共享实现多次迭代,从而提高推理效率和能力。
技术框架:YOCO-U基于YOCO框架,包含一个通用自解码器,执行多次迭代并限制在浅层高效注意力层,提供恒定的全局KV缓存和线性预填充。
关键创新:YOCO-U的主要创新在于将高效注意力架构与递归计算相结合,形成的协同效应在能力与效率之间取得了优良的平衡,这是YOCO和递归单独实现的效果所无法比拟的。
关键设计:YOCO-U的设计包括参数共享机制、浅层高效注意力层的限制,以及在保持低开销的同时增强表示深度的部分递归策略。具体的参数设置和损失函数设计在实验中进行了优化。
🖼️ 关键图片
📊 实验亮点
实验结果表明,YOCO-U在一般和长上下文基准测试中表现出色,显示出在推理效率和能力之间的良好平衡。具体性能数据表明,YOCO-U在多个任务上超越了现有基线,提升幅度显著,证明了其有效性。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、对话系统和长文本理解等。通过提升大型语言模型的推理效率,YOCO-U可以在实时应用中提供更快的响应时间和更高的准确性,具有重要的实际价值和未来影响。
📄 摘要(原文)
The rise of test-time scaling has remarkably boosted the reasoning and agentic proficiency of Large Language Models (LLMs). Yet, standard Transformers struggle to scale inference-time compute efficiently, as conventional looping strategies suffer from high computational overhead and a KV cache that inflates alongside model depth. We present Universal YOCO (YOCO-U), which combines the YOCO decoder-decoder architecture with recursive computation to achieve a synergistic effect greater than either alone. Built on the YOCO framework, YOCO-U implements a Universal Self-Decoder that performs multiple iterations via parameter sharing, while confining the iterative process to shallow, efficient-attention layers. This combination yields a favorable capability-efficiency tradeoff that neither YOCO nor recursion achieves independently. The YOCO architecture provides a constant global KV cache and linear pre-filling, while partial recursion enhances representational depth with limited overhead. Together, YOCO-U improves token utility and scaling behavior while maintaining efficient inference. Empirical results confirm that YOCO-U remains highly competitive in general and long-context benchmarks, demonstrating that the integration of efficient-attention architectures and recursive computation is a promising direction for scalable LLMs.