IndexCache:用「跨层索引复用」给稀疏注意力减负,30B 模型 prefill 提速 1.82×

稀疏注意力是当前长上下文 LLM 的事实标准——从 DeepSeek V3.2 开始,DSA(DeepSeek Sparse Attention)架构已经成为 GLM、Kimi 等家族处理百万级 token 的默认选项。但 DSA 自身有一个隐藏税:每层都有一个「闪电索引器」来挑选 top-k 相关 token,而它的复杂度仍是 O(L²),上下文越长越吞噬主注意力收益。 清华大学与 Z.ai 联合提出的 IndexCache(arXiv:2603.12201)正瞄着这个被忽视的开销。研究者观察到:相邻 transformer 层选出的 top-k 集合有 70%–100% 的重叠——算一次足够,没必要每层重算。 IndexCache 把网络分成两类:少量 Full 层保留索引器并缓存 top-k,其余 Shared 层直接复用最近 Full 层的索引,跳过索引计算。论文还给出两种配置方式——无训练的贪心搜索(用校准集 LM loss 选哪些层保留),以及带蒸馏的训练版(让保留的索引器去拟合它所服务多层的平均注意力分布)。 实验在 30B DSA 模型上:索引器计算量减少 75%,prefill 提速 1.82×,解码提速 1.48×,质量几乎不损失;并在生产级 744B 的 GLM-5 上完成初步验证。 IndexCache 与近期大量 KV cache 压缩工作互补——后者解决 attention 主路径存储,前者瞄准「先选再算」架构里被忽视的索引开销。两者叠加有望把长上下文服务的单 token 成本再压一截。对于部署 GLM、DeepSeek V3.2 这类模型的团队来说,这是个值得立刻评估的免费午餐。