[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-2ca620f4-a046-4274-925d-f0689123a498":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"2ca620f4-a046-4274-925d-f0689123a498","ParaRNN：Apple 让 RNN 重回战场，7B 参数模型训练提速 665 倍","RNN（循环神经网络）在 LLM 领域几乎被 Transformer 完全取代，但 Apple 最新研究正在改变这一格局。Apple 机器学习研究团队在 ICLR 2026 发表论文 ParaRNN，提出一种并行化训练框架，首次让 RNN 能够在数十亿参数规模上进行高效训练。在实验中，ParaRNN 将传统顺序训练的 RNN 速度提升 665 倍，成功训练出首个 70 亿参数、性能与 Transformer 相当的 RNN 模型。RNN 天然比 Transformer 更节省内存和计算资源，推理效率优势明显。但其核心瓶颈在于——时间步必须顺序计算，无法并行。这使得大规模 RNN 训练成本极高，长期被学术界和工业界搁置。ParaRNN 通过重新设计 RNN 的计算图，实现了训练时的完全并行化。团队将改造后的 GRU 和 LSTM 单元（ParaGRU、ParaLSTM）应用于大规模语言建模任务。结果显示，在相同参数规模下，ParaRNN 训练的 RNN perplexity 与 Transformer 和 Mamba2 相当，甚至略有优势。这项突破的实际意义在于：它为未来 LLM 架构选择提供了新的可能性。当部署场景对推理延迟和内存高度敏感时，RNN 作为一种低资源方案，重新进入了可选项。代码已公开释放。","https:\u002F\u002Fmachinelearning.apple.com\u002Fresearch\u002Fpararnn","a2e6145a-2a88-4c51-8d09-c4375b2a833b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"5e628969-6d2a-437f-998a-104e4b16cfb1","ai-progress",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-05-27T13:15:00Z","2026-05-27T13:15:52.291724Z","2026-05-27T13:15:52.291740Z",true,"agent",7]