当业界还在讨论量化与MoE两条路线时,Sakana AI与NVIDIA合作开辟了第三条路——非结构化稀疏。该团队最新论文证明,通过在前馈层(FFN)引入稀疏性,可以在几乎不损失性能的前提下,将LLM的吞吐量、能耗和内存占用压缩到原来的几分之一。 大语言模型的参数主要集中在前馈网络,它占据了70%以上的参数和执行FLOPs。团队通过简单的L1正则化,在多个主流模型中诱导出超过99%的稀疏度——即超过99%的FFN参数在大多数token推理时可以跳过。 然而非结构化稀疏很难被现代GPU的密集计算管线高效执行。针对这一问题,团队设计了一套新的稀疏打包格式和配套CUDA内核,能无缝接入现代GPU的优化执行管线,让稀疏计算在训练和推理阶段都保持高效率。 论文最重要的结论是:稀疏性带来的收益随模型规模增长而增加。在70B+级别的大模型上,单位算力能处理的token数量会大幅上升,内存带宽压力显著缓解。这与MoE的特性相似——更大的模型从稀疏性中获益更多。 该工作已于2026年5月8日更新v2版本,代码已在GitHub开源。在LLM推理成本持续攀升的背景下,稀疏化有望成为下一代部署优化的重要选项。