当 Coding Agent 的执行步数从十步冲到几十甚至几百步,错误会一步步累积,而过程中又没有外部纠错信号——这正是长程编程的真正瓶颈。小米 MiMo 团队 6 月 10 日开源的 **MiMo Code**,没有在「更聪明的模型」上押注,而是把整套 harness 拆成 **计算、记忆、演化** 三段时间尺度分别优化: **第一段:计算(单轮决策质量)。** MiMo Code 引入两个正交的 test-time compute 杠杆。Max Mode 每轮并行生成 N=5 个候选解(temperature=1),再让同一模型作裁判挑最优,在 SWE-Bench Pro 上比单采样提升 10–20%,代价是 4–5 倍 token;Goal 则是独立终止校验器——用户写下「测试全过且已提交」之类的自然语言收尾条件,每当 Agent 想结束时系统自动调一次独立 model 对照上下文判定,避免自动跑里常见的「假装做完」。两者可同时开启。 **第二段:记忆(任务内的状态连续性)。** 团队明确指出,靠「压缩历史」是死路——远端信息会被反复稀释,更像 Mamba 的局限而非 Transformer 的劣势。MiMo Code 改为显式存储-检索结构:什么信息值得写入持久层、何时被召回,由 harness 决定,让模型真正具备「按需回看」能力。 **第三段:演化(跨 session 经验蒸馏)。** 不同任务里沉淀的失败-修复模式应当回流到 prompt 或工具策略,而不是每轮从零开始。 对比同期动辄堆 GPU 集群的方案,MiMo Code 的工程哲学更贴近软件工程本身——把可靠性当 **过程** 设计,而不是依赖模型一夜变聪明。对国内 Agent 开源生态,这或许比单一 benchmark 上的 SOTA 更值得跟。 (来源:小米 MiMo 官方博客《MiMo Code: Scaling Coding Agents to Long-Horizon Tasks》,2026-06-10)