大语言模型处理长上下文时,KV Cache的内存带宽消耗是推理效率的最大瓶颈。业界近年来发展出两条互补路径:投机解码(通过小模型预测+大模型验证来摊销计算成本)和动态稀疏注意力(NSA,通过只访问部分KV Cache来降低内存访问量)。但这两项优化直接叠加时,效果反而会相互削弱——投机验证需要跨查询复用相同KV Block,而稀疏注意力为每个查询分配不同布局,两者存在根本矛盾。 南京大学软件工程国家重点实验室团队近日发表论文(arXiv:2605.19893),提出SpecSA框架,首次系统性地解决了这一冲突。 核心思路:SpecSA通过三项技术实现协同:一是Overlap-Aware Grouped-Query Execution,让验证过程保持跨查询的KV复用效率;二是Refresh/Reuse-Based NSA Kernel Fusion,将稀疏注意力内核与投机验证流程融合;三是Profile-Guided Prompt-Adaptive Orchestration,根据输入特征动态选择最优验证策略。 在NVIDIA H100 PCIe GPU(Llama-3.1-8B-Instruct,64K上下文)上的实验表明:端到端吞吐相比自回归NSA解码提升3.49倍,内核级加速达6.86倍。在64K场景下,注意力计算原本占每个解码步的97.2%耗时,SSV能将其大幅压缩。 观点:投机解码和稀疏注意力此前一直被业界视为需要独立使用的两套功,很少有人尝试让它们协同。SpecSA的意义不仅在于3.49倍的数字,更在于提供了一套方法论——如何将有冲突的两类优化在内核层面融合。随着长上下文应用成为刚需,这类组合优化的研究价值将持续上升。