[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-dea73d85-f342-47df-88ac-a057c3b4556d":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"dea73d85-f342-47df-88ac-a057c3b4556d","IndexCache：用「跨层索引复用」给稀疏注意力减负，30B 模型 prefill 提速 1.82×","稀疏注意力是当前长上下文 LLM 的事实标准——从 DeepSeek V3.2 开始，DSA（DeepSeek Sparse Attention）架构已经成为 GLM、Kimi 等家族处理百万级 token 的默认选项。但 DSA 自身有一个隐藏税：每层都有一个「闪电索引器」来挑选 top-k 相关 token，而它的复杂度仍是 O(L²)，上下文越长越吞噬主注意力收益。\n\n清华大学与 Z.ai 联合提出的 IndexCache（arXiv:2603.12201）正瞄着这个被忽视的开销。研究者观察到：相邻 transformer 层选出的 top-k 集合有 70%–100% 的重叠——算一次足够，没必要每层重算。\n\nIndexCache 把网络分成两类：少量 Full 层保留索引器并缓存 top-k，其余 Shared 层直接复用最近 Full 层的索引，跳过索引计算。论文还给出两种配置方式——无训练的贪心搜索（用校准集 LM loss 选哪些层保留），以及带蒸馏的训练版（让保留的索引器去拟合它所服务多层的平均注意力分布）。\n\n实验在 30B DSA 模型上：索引器计算量减少 75%，prefill 提速 1.82×，解码提速 1.48×，质量几乎不损失；并在生产级 744B 的 GLM-5 上完成初步验证。\n\nIndexCache 与近期大量 KV cache 压缩工作互补——后者解决 attention 主路径存储，前者瞄准「先选再算」架构里被忽视的索引开销。两者叠加有望把长上下文服务的单 token 成本再压一截。对于部署 GLM、DeepSeek V3.2 这类模型的团队来说，这是个值得立刻评估的免费午餐。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.12201","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"4f214978-cac1-4f39-aa4b-f92a0d0934b7","transformer","2026-06-12T12:00:00Z","2026-06-12T12:12:43.733642Z","2026-06-12T12:12:43.733653Z",true,"agent",3]