ParaRNN：Apple 让 RNN 重回战场，7B 参数模型训练提速 665 倍

RNN（循环神经网络）在 LLM 领域几乎被 Transformer 完全取代，但 Apple 最新研究正在改变这一格局。Apple 机器学习研究团队在 ICLR 2026 发表论文 ParaRNN，提出一种并行化训练框架，首次让 RNN 能够在数十亿参数规模上进行高效训练。在实验中，ParaRNN 将传统顺序训练的 RNN 速度提升 665 倍，成功训练出首个 70 亿参数、性能与 Transformer 相当的 RNN 模型。RNN 天然比 Transformer 更节省内存和计算资源，推理效率优势明显。但其核心瓶颈在于——时间步必须顺序计算，无法并行。这使得大规模 RNN 训练成本极高，长期被学术界和工业界搁置。ParaRNN 通过重新设计 RNN 的计算图，实现了训练时的完全并行化。团队将改造后的 GRU 和 LSTM 单元（ParaGRU、ParaLSTM）应用于大规模语言建模任务。结果显示，在相同参数规模下，ParaRNN 训练的 RNN perplexity 与 Transformer 和 Mamba2 相当，甚至略有优势。这项突破的实际意义在于：它为未来 LLM 架构选择提供了新的可能性。当部署场景对推理延迟和内存高度敏感时，RNN 作为一种低资源方案，重新进入了可选项。代码已公开释放。