ParaRNN:Apple 让 RNN 重回战场,7B 参数模型训练提速 665 倍

RNN(循环神经网络)在 LLM 领域几乎被 Transformer 完全取代,但 Apple 最新研究正在改变这一格局。Apple 机器学习研究团队在 ICLR 2026 发表论文 ParaRNN,提出一种并行化训练框架,首次让 RNN 能够在数十亿参数规模上进行高效训练。在实验中,ParaRNN 将传统顺序训练的 RNN 速度提升 665 倍,成功训练出首个 70 亿参数、性能与 Transformer 相当的 RNN 模型。RNN 天然比 Transformer 更节省内存和计算资源,推理效率优势明显。但其核心瓶颈在于——时间步必须顺序计算,无法并行。这使得大规模 RNN 训练成本极高,长期被学术界和工业界搁置。ParaRNN 通过重新设计 RNN 的计算图,实现了训练时的完全并行化。团队将改造后的 GRU 和 LSTM 单元(ParaGRU、ParaLSTM)应用于大规模语言建模任务。结果显示,在相同参数规模下,ParaRNN 训练的 RNN perplexity 与 Transformer 和 Mamba2 相当,甚至略有优势。这项突破的实际意义在于:它为未来 LLM 架构选择提供了新的可能性。当部署场景对推理延迟和内存高度敏感时,RNN 作为一种低资源方案,重新进入了可选项。代码已公开释放。