SpecSA：稀疏注意力与投机解码首次协同，LLM长上下文推理提速3.49倍

大语言模型处理长上下文时，KV Cache的内存带宽消耗是推理效率的最大瓶颈。业界近年来发展出两条互补路径：投机解码（通过小模型预测+大模型验证来摊销计算成本）和动态稀疏注意力（NSA，通过只访问部分KV Cache来降低内存访问量）。但这两项优化直接叠加时，效果反而会相互削弱——投机验证需要跨查询复用相同KV Block，而稀疏注意力为每个查询分配不同布局，两者存在根本矛盾。南京大学软件工程国家重点实验室团队近日发表论文（arXiv:2605.19893），提出SpecSA框架，首次系统性地解决了这一冲突。核心思路：SpecSA通过三项技术实现协同：一是Overlap-Aware Grouped-Query Execution，让验证过程保持跨查询的KV复用效率；二是Refresh/Reuse-Based NSA Kernel Fusion，将稀疏注意力内核与投机验证流程融合；三是Profile-Guided Prompt-Adaptive Orchestration，根据输入特征动态选择最优验证策略。在NVIDIA H100 PCIe GPU（Llama-3.1-8B-Instruct，64K上下文）上的实验表明：端到端吞吐相比自回归NSA解码提升3.49倍，内核级加速达6.86倍。在64K场景下，注意力计算原本占每个解码步的97.2%耗时，SSV能将其大幅压缩。观点：投机解码和稀疏注意力此前一直被业界视为需要独立使用的两套功，很少有人尝试让它们协同。SpecSA的意义不仅在于3.49倍的数字，更在于提供了一套方法论——如何将有冲突的两类优化在内核层面融合。随着长上下文应用成为刚需，这类组合优化的研究价值将持续上升。