Language Modeling on a SpiNNaker 2 Neuromorphic Chip

📄 arXiv: 2312.09084v3 📥 PDF

作者: Khaleelulla Khan Nazeer, Mark Schöne, Rishav Mukherji, Bernhard Vogginger, Christian Mayr, David Kappel, Anand Subramoney

分类: cs.NE, cs.CL, cs.ET, cs.LG

发布日期: 2023-12-14 (更新: 2024-01-24)


💡 一句话要点

在SpiNNaker 2神经形态芯片上实现语言建模,性能媲美LSTM

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 神经形态计算 事件驱动网络 语言建模 SpiNNaker 2 EGRU 低功耗 循环神经网络

📋 核心要点

  1. 现有神经形态硬件上的事件驱动网络在语言建模任务中性能不足,远低于LSTM等传统模型。
  2. 论文提出基于EGRU架构的语言模型,并将其部署在SpiNNaker 2神经形态芯片上,旨在提升能效。
  3. 实验结果表明,该模型在神经形态硬件上首次实现了与LSTM相当的语言建模性能,并验证了其在姿势识别任务中的有效性。

📝 摘要(中文)

随着大型语言模型规模的快速增长,运行它们所需的计算能力也随之增加。神经形态设备上的事件驱动网络提供了一种显著降低推理能耗的潜在方法。然而,目前大多数可在神经形态硬件上运行的事件驱动网络,包括脉冲神经网络(SNN),在语言建模任务上的性能甚至无法与LSTM模型相媲美。因此,在神经形态设备上进行语言建模似乎遥遥无期。本文首次展示了在神经形态设备(具体而言是SpiNNaker 2芯片)上实现的语言模型,该模型基于最近发布的名为EGRU的事件驱动架构。SpiNNaker 2是一款多核神经形态芯片,专为大规模异步处理而设计,而EGRU的设计旨在有效利用此类硬件,同时保持具有竞争力的任务性能。该实现标志着神经形态语言模型首次与LSTM相匹配,为将任务性能提升到大型语言模型的水平奠定了基础。我们还展示了基于DVS相机输入的姿势识别任务的结果。总的来说,我们的结果展示了这种神经启发式神经网络在硬件中的可行性,突出了在单批次推理的常见用例中相对于传统硬件在能源效率方面的显著优势。

🔬 方法详解

问题定义:论文旨在解决大型语言模型推理时功耗过高的问题,特别是在资源受限的场景下。现有的事件驱动网络,包括脉冲神经网络(SNN),虽然在理论上具有低功耗的潜力,但在语言建模任务上的性能远低于传统的循环神经网络(如LSTM),无法满足实际应用的需求。

核心思路:论文的核心思路是利用专门设计的事件驱动循环单元(EGRU)架构,结合SpiNNaker 2神经形态芯片的并行异步处理能力,实现高效的语言建模。EGRU的设计目标是在保持任务性能的同时,充分利用神经形态硬件的优势,降低能耗。

技术框架:整体框架包括:1)将语言数据转换为事件流;2)使用EGRU网络处理事件流,进行语言建模;3)在SpiNNaker 2芯片上部署和运行EGRU网络。主要模块包括:事件编码器、EGRU循环单元、输出解码器。

关键创新:最重要的技术创新在于EGRU架构的设计,它是一种专门为神经形态硬件优化的事件驱动循环单元。与传统的SNN相比,EGRU在结构上更易于训练和优化,并且能够更好地利用SpiNNaker 2芯片的并行计算能力。

关键设计:EGRU的关键设计包括:1)使用事件驱动的激活函数,只在输入发生变化时才进行计算;2)采用稀疏连接,减少计算量和内存占用;3)针对SpiNNaker 2芯片的架构特点进行优化,例如,将EGRU单元映射到芯片的不同核心上,实现并行计算。

📊 实验亮点

该论文最重要的实验结果是首次在SpiNNaker 2神经形态芯片上实现了与LSTM相当的语言建模性能。此外,论文还展示了基于DVS相机输入的姿势识别任务的结果,进一步验证了EGRU架构的通用性和有效性。论文强调了在单批次推理的常见用例中,相对于传统硬件在能源效率方面的显著优势,但具体能耗数据未知。

🎯 应用场景

该研究成果可应用于低功耗、边缘计算场景下的自然语言处理任务,例如移动设备上的语音识别、智能家居中的对话系统、以及机器人控制等。通过在神经形态硬件上部署语言模型,可以显著降低能耗,延长设备续航时间,并为资源受限的环境提供更强大的AI能力。未来,该技术有望推动神经形态计算在更广泛的领域得到应用。

📄 摘要(原文)

As large language models continue to scale in size rapidly, so too does the computational power required to run them. Event-based networks on neuromorphic devices offer a potential way to reduce energy consumption for inference significantly. However, to date, most event-based networks that can run on neuromorphic hardware, including spiking neural networks (SNNs), have not achieved task performance even on par with LSTM models for language modeling. As a result, language modeling on neuromorphic devices has seemed a distant prospect. In this work, we demonstrate the first-ever implementation of a language model on a neuromorphic device - specifically the SpiNNaker 2 chip - based on a recently published event-based architecture called the EGRU. SpiNNaker 2 is a many-core neuromorphic chip designed for large-scale asynchronous processing, while the EGRU is architected to leverage such hardware efficiently while maintaining competitive task performance. This implementation marks the first time a neuromorphic language model matches LSTMs, setting the stage for taking task performance to the level of large language models. We also demonstrate results on a gesture recognition task based on inputs from a DVS camera. Overall, our results showcase the feasibility of this neuro-inspired neural network in hardware, highlighting significant gains versus conventional hardware in energy efficiency for the common use case of single batch inference.