TwELL:Sakana AI与NVIDIA联合提出稀疏LLM推理加速20%,解决GPU批处理落地难题

现代大语言模型的前馈层占据了超过三分之二的模型参数和80%以上的总FLOPs,而推理时对任意给定token,超过99%的隐藏激活值可以为零。这种天然的激活稀疏性本应带来巨大效率提升,但GPU高度优化的稠密矩阵运算(Tensor Core)无法有效利用——稀疏操作的额外转换开销往往抵消了跳过零值带来的收益。 之前的稀疏LLM内核(TurboSparse、ProSparse、Q-Sparse等)只瞄准了单token GEMV场景,但实际训练和高吞吐推理处理的都是大批量token的GEMM运算,稠密基准在现代GPU上通过大tile和Tensor Core实现数量级更高的FLOP/s,稀疏开销反而更大。 Sakana AI与NVIDIA联合提出TwELL(Tile-wise ELL)稀疏格式,核心创新在于:将列划分为与matmul kernel tile大小匹配的水平块,在块内局部打包非零值——而非传统ELL格式的按行全局打包。TwELL可在现有gate projection kernel的epilogue中直接构造,无需额外kernel启动、额外全局内存读写或同步开销。推理阶段,融合kernel联合执行up projection和down projection,中间隐藏状态从不写回全局内存,每一次前向传播都减少了DRAM流量。 使用TwELL内核的稀疏LLM在H100 GPU上实现了推理前向传播加速20.5%、训练加速21.9%,同时降低能耗和内存占用。实现方式极为简单:只需将SiLU激活函数替换为ReLU,并在隐藏前馈激活上添加L1正则项(系数2×10⁻⁵)。在1.5B模型上,ReLU精度略低于SiLU(46.4% vs 47.1%),但被效率收益完全覆盖。稀疏性在大约1,000步(~1B tokens)内快速稳定。 TwELL的价值在于真正解决了稀疏性从研究走向生产的难题——从单token GEMV走向batch GEMM。对整个行业而言,这是一个方向性验证:超过99%的激活为零,TwELL首次让它在批处理场景中兑现为真实的加速。20%以上的推理加速意味着相同硬件可服务更多用户,或用更少GPU完成相同吞吐量。论文已发表于ICML 2026,代码已开源。