GLM-5.2 把 1M 上下文"焊"进开源：IndexShare + 反作弊 RL，把长程 Agent 拉成工程现实

Z.ai（智谱）6 月 17 日在 Hugging Face 发布 GLM-5.2：753B 参数、MIT 开源、上下文窗口从 200K 拉到 1M token。比起又大又长，GLM-5.2 真正值得展开的是三个工程层面的决定。第一是 IndexShare 稀疏注意力：把同一组 indexer 复用到连续 4 层稀疏注意力中，1M 上下文下每 token FLOPs 直降 2.9×。这件事为什么重要？DSA 类稀疏注意力如果不解决 indexer 自身的开销，「长上下文」只会先把推理账单拖垮。IndexShare 是把稀疏注意力真正能上工程补齐的关键一环。第二是 MTP + IndexShare + KVShare 的联合优化：speculative decoding 的接受长度从 4.56 提升到 5.47（+20%）。在 1M 上下文下 decode 步骤被几十倍放大，每步多收一个 token，端到端吞吐就被显著拉开。第三是 Coding Agent 的 RL 做到「能跑、稳跑、不被刷」。Z.ai 用自研 slime 框架做大规模 agentic RL rollout——支持白盒/黑盒 rollout、压缩轨迹、子智能体工作流，把 10+ 专家模型在约两天内合并训练完毕。同时设计反作弊模块：规则过滤先抓可疑工具调用（如 curl raw.githubusercontent.com/... 拉答案），再用 LLM judge 判断意图；命中后在线阻断并返回假数据，但不打断整条 rollout，避免粗暴拒掉轨迹带来的训练崩塌。 Benchmark 上 GLM-5.2 把「开源旗舰」天花板顶到新位置：Terminal-Bench 2.1 拿到 81.0（GLM-5.1 仅 63.5），SWE-bench Pro 62.1。在 FrontierSWE 上它仅落后 Claude Opus 4.8 一个百分点，是该榜唯一进第一梯队的开源模型。比起再刷一次 chat benchmark，Z.ai 真正贡献的是工程视角：1M 上下文的难点不在「塞得进」，而在推理经济性、Coding Agent 的 RL 稳定性与反作弊、长程任务的可验证执行。开源权重 + MIT + 完整训练/推理笔记，第一次让「长程开源旗舰」从口号变成可复现的现实。