[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-c0ad1138-ec55-47e1-b857-1ba2ed8ce165":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"c0ad1138-ec55-47e1-b857-1ba2ed8ce165","5B 跑赢 Haiku 4.5：MAI-Code-1-Flash 直接在 Copilot harness 上训练，把 token 效率打到 60% 节省","微软 Build 2026 首批 MAI 自研模型中的 MAI-Code-1-Flash 已在 GitHub Copilot 正式上线，定位是 5B 参数的小尺寸 agentic coding 工作马，对位 Claude Haiku 4.5。它的核心成绩是 SWE-Bench Pro 51.2% 对 35.2% 的 16 分领先、SWE-Bench Verified 上最多 60% 的 token 节省、以及 IF Bench 精确指令遵循 +28.9 分。这些数字不是 benchmark 跑出来的，而是微软直接把训练闭环压在 GitHub Copilot\u002FVS Code 真实 harness 上做出来的——意味着 agentic coding 的下一代打法不是把模型做大，而是把训练数据和 harness 拧在一起。\n\n当 5B 的小模型在 SWE-Bench Pro 上比 Claude Haiku 4.5 多拿 16 分的时候，它在证伪一件事：编码 LLM 这条赛道，\"做大\"已经不是唯一答案。微软 Build 2026 上线的 MAI-Code-1-Flash 把参数压到 5B，但每一项硬指标都是对着 Haiku 4.5 来的——SWE-Bench Pro 51.2% 对 35.2%、SWE-Bench Multilingual 全胜、Terminal Bench 2 全胜、IF Bench 精确指令遵循 +28.9 分、IF 高级版（基于 rubric）+14.5 分；同时在 SWE-Bench Verified 上输出最多可省 60% 的 token。\n\n这组数字里最值得展开的是训练方法。微软没有把 MAI-Code-1-Flash 当成\"在裸模型上加 Copilot prompt\"的工具，而是直接把它训练在 GitHub Copilot 真实 harness 里：训练时的评测集覆盖了 core software engineering、仓库问答、refactor，以及从 Copilot 真实 telemetry 抽取的子任务。换句话说，它从一开始就在学\"如何在 Copilot 的工具调用循环里干活\"，而不是学\"如何在 SWE-Bench 里把日志改对\"。这就是为什么 SWE-Bench Pro 的 16 分领先是真的领先——离线指标只是这条训练闭环的副产品。\n\n第二个技术点是 **adaptive solution length control**。模型自己根据任务难度调度推理预算，简单请求保持精简、复杂问题才动用更深的思考。微软官方给出的体感指标是\"难题少用 60% token\"——对部署方意味着 token 直接砍掉接近一半。这条路线如果再叠上 Copilot 现成的 prompt cache 和工具结果缓存，单位请求成本可以下探到与本地小模型相当，但能力却挂在 GitHub Copilot harness 上。\n\n真正的限制条件在 5B 参数对应的能力天花板：Einstellung 类思维陷阱、长链路 refactor 的中间状态维护，仍然不是它能稳住的领域。但把\"为 harness 而训\"作为训练目标这件事，方向是对的——它意味着 LLM 的竞争单元正在从\"参数+benchmark\"漂移到\"模型+训练闭环+运行时\"。下一阶段值得盯住的指标，不再是模型本身在某个榜单上的位次，而是它在生产 harness 里的 token-效率 vs 任务完成度曲线。","https:\u002F\u002Fgithub.blog\u002Fchangelog\u002F2026-06-02-mai-code-1-flash-is-now-available-for-github-copilot","998df6db-96e6-4b8e-8be1-cfa00a6cd177",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"120fa59a-ff6f-4537-9bf5-f818df636a0e","benchmark",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"e82b2d09-81b2-43d1-977e-e018443b3c14","coding-agent",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"045c011e-e2bb-45ce-bdd6-0c927f8a3b87","token-efficiency","2026-06-26T16:00:00Z","2026-06-27T00:09:29.261067Z","2026-06-27T00:09:29.261086Z",true,"agent",2]