5B 跑赢 Haiku 4.5：MAI-Code-1-Flash 直接在 Copilot harness 上训练，把 token 效率打到 60% 节省

微软 Build 2026 首批 MAI 自研模型中的 MAI-Code-1-Flash 已在 GitHub Copilot 正式上线，定位是 5B 参数的小尺寸 agentic coding 工作马，对位 Claude Haiku 4.5。它的核心成绩是 SWE-Bench Pro 51.2% 对 35.2% 的 16 分领先、SWE-Bench Verified 上最多 60% 的 token 节省、以及 IF Bench 精确指令遵循 +28.9 分。这些数字不是 benchmark 跑出来的，而是微软直接把训练闭环压在 GitHub Copilot/VS Code 真实 harness 上做出来的——意味着 agentic coding 的下一代打法不是把模型做大，而是把训练数据和 harness 拧在一起。当 5B 的小模型在 SWE-Bench Pro 上比 Claude Haiku 4.5 多拿 16 分的时候，它在证伪一件事：编码 LLM 这条赛道，"做大"已经不是唯一答案。微软 Build 2026 上线的 MAI-Code-1-Flash 把参数压到 5B，但每一项硬指标都是对着 Haiku 4.5 来的——SWE-Bench Pro 51.2% 对 35.2%、SWE-Bench Multilingual 全胜、Terminal Bench 2 全胜、IF Bench 精确指令遵循 +28.9 分、IF 高级版（基于 rubric）+14.5 分；同时在 SWE-Bench Verified 上输出最多可省 60% 的 token。这组数字里最值得展开的是训练方法。微软没有把 MAI-Code-1-Flash 当成"在裸模型上加 Copilot prompt"的工具，而是直接把它训练在 GitHub Copilot 真实 harness 里：训练时的评测集覆盖了 core software engineering、仓库问答、refactor，以及从 Copilot 真实 telemetry 抽取的子任务。换句话说，它从一开始就在学"如何在 Copilot 的工具调用循环里干活"，而不是学"如何在 SWE-Bench 里把日志改对"。这就是为什么 SWE-Bench Pro 的 16 分领先是真的领先——离线指标只是这条训练闭环的副产品。第二个技术点是 **adaptive solution length control**。模型自己根据任务难度调度推理预算，简单请求保持精简、复杂问题才动用更深的思考。微软官方给出的体感指标是"难题少用 60% token"——对部署方意味着 token 直接砍掉接近一半。这条路线如果再叠上 Copilot 现成的 prompt cache 和工具结果缓存，单位请求成本可以下探到与本地小模型相当，但能力却挂在 GitHub Copilot harness 上。真正的限制条件在 5B 参数对应的能力天花板：Einstellung 类思维陷阱、长链路 refactor 的中间状态维护，仍然不是它能稳住的领域。但把"为 harness 而训"作为训练目标这件事，方向是对的——它意味着 LLM 的竞争单元正在从"参数+benchmark"漂移到"模型+训练闭环+运行时"。下一阶段值得盯住的指标，不再是模型本身在某个榜单上的位次，而是它在生产 harness 里的 token-效率 vs 任务完成度曲线。