GLM-5.2 把 1M 上下文"焊"进开源:IndexShare + 反作弊 RL,把长程 Agent 拉成工程现实

Z.ai(智谱)6 月 17 日在 Hugging Face 发布 GLM-5.2:753B 参数、MIT 开源、上下文窗口从 200K 拉到 1M token。比起又大又长,GLM-5.2 真正值得展开的是三个工程层面的决定。 第一是 IndexShare 稀疏注意力:把同一组 indexer 复用到连续 4 层稀疏注意力中,1M 上下文下每 token FLOPs 直降 2.9×。这件事为什么重要?DSA 类稀疏注意力如果不解决 indexer 自身的开销,「长上下文」只会先把推理账单拖垮。IndexShare 是把稀疏注意力真正能上工程补齐的关键一环。 第二是 MTP + IndexShare + KVShare 的联合优化:speculative decoding 的接受长度从 4.56 提升到 5.47(+20%)。在 1M 上下文下 decode 步骤被几十倍放大,每步多收一个 token,端到端吞吐就被显著拉开。 第三是 Coding Agent 的 RL 做到「能跑、稳跑、不被刷」。Z.ai 用自研 slime 框架做大规模 agentic RL rollout——支持白盒/黑盒 rollout、压缩轨迹、子智能体工作流,把 10+ 专家模型在约两天内合并训练完毕。同时设计反作弊模块:规则过滤先抓可疑工具调用(如 curl raw.githubusercontent.com/... 拉答案),再用 LLM judge 判断意图;命中后在线阻断并返回假数据,但不打断整条 rollout,避免粗暴拒掉轨迹带来的训练崩塌。 Benchmark 上 GLM-5.2 把「开源旗舰」天花板顶到新位置:Terminal-Bench 2.1 拿到 81.0(GLM-5.1 仅 63.5),SWE-bench Pro 62.1。在 FrontierSWE 上它仅落后 Claude Opus 4.8 一个百分点,是该榜唯一进第一梯队的开源模型。 比起再刷一次 chat benchmark,Z.ai 真正贡献的是工程视角:1M 上下文的难点不在「塞得进」,而在推理经济性、Coding Agent 的 RL 稳定性与反作弊、长程任务的可验证执行。开源权重 + MIT + 完整训练/推理笔记,第一次让「长程开源旗舰」从口号变成可复现的现实。