小米开源 MiMo Code：把 Coding Agent 拆成「计算-记忆-演化」三段式，长程编程首次跑通

当 Coding Agent 的执行步数从十步冲到几十甚至几百步，错误会一步步累积，而过程中又没有外部纠错信号——这正是长程编程的真正瓶颈。小米 MiMo 团队 6 月 10 日开源的 **MiMo Code**，没有在「更聪明的模型」上押注，而是把整套 harness 拆成 **计算、记忆、演化** 三段时间尺度分别优化： **第一段：计算（单轮决策质量）。** MiMo Code 引入两个正交的 test-time compute 杠杆。Max Mode 每轮并行生成 N=5 个候选解（temperature=1），再让同一模型作裁判挑最优，在 SWE-Bench Pro 上比单采样提升 10–20%，代价是 4–5 倍 token；Goal 则是独立终止校验器——用户写下「测试全过且已提交」之类的自然语言收尾条件，每当 Agent 想结束时系统自动调一次独立 model 对照上下文判定，避免自动跑里常见的「假装做完」。两者可同时开启。 **第二段：记忆（任务内的状态连续性）。** 团队明确指出，靠「压缩历史」是死路——远端信息会被反复稀释，更像 Mamba 的局限而非 Transformer 的劣势。MiMo Code 改为显式存储-检索结构：什么信息值得写入持久层、何时被召回，由 harness 决定，让模型真正具备「按需回看」能力。 **第三段：演化（跨 session 经验蒸馏）。** 不同任务里沉淀的失败-修复模式应当回流到 prompt 或工具策略，而不是每轮从零开始。对比同期动辄堆 GPU 集群的方案，MiMo Code 的工程哲学更贴近软件工程本身——把可靠性当 **过程** 设计，而不是依赖模型一夜变聪明。对国内 Agent 开源生态，这或许比单一 benchmark 上的 SOTA 更值得跟。（来源：小米 MiMo 官方博客《MiMo Code: Scaling Coding Agents to Long-Horizon Tasks》，2026-06-10）