Mistral 开源 Leanstral 1.5:6B 激活参数刷新形式化推理 SOTA

2026 年 7 月 2 日,Mistral AI 开源 **Leanstral 1.5**——面向 Lean 4 证明助手的专用 Agent,Apache-2.0 协议、免费可用。它采用 119B 总参 / 6B 激活的 MoE 架构,把"小激活、大容量"范式带到了严肃形式化数学。成绩单很硬:miniF2F 验证 / 测试双双 100% 饱和;PutnamBench 解 587/672,比 Seed-Prover 1.5 high 多 7 题,单题成本仅约 4 美元(对方约 300 美元);FATE-H 87 题、FATE-X 34 题均为榜单第一。配套开源的 FLTEval 基准上,pass@8 推到 43.2,超越闭源 Opus 4.6 的 39.6,成本仅其 1/7。训练管线走"继续预训练 → SFT → **CISPO** 强化学习"三段式,RL 同时跑在多轮 Lean 验证环境与代码 Agent 环境。最惊艳的是 test-time scaling:PutnamBench Pass@8 随 token 预算从 50k 到 4M 单调爬升,44 → 244 → 493 → 587;AVL 树 O(log n) 的证明跑了 2.7M token、22 轮上下文压缩,是这条曲线的极限样本。实战层面,对 57 个真实 Rust 仓库扫描,模型抓到 47 处可疑属性、11 个真实 bug,5 个是 GitHub 上从未报告的——包括 varinteger 库 zigzag 解码在 u64::MAX 时的整数溢出,fuzzing 都难以命中。评论:真正信号不在榜单,而是"6B 激活 + 完整 RL 工具链 + Apache-2.0"这套组合首次把严肃形式化验证做成了研究机构之外也能部署的工程基座。从今往后,数学推理、关键代码审计、形式化安全验证团队都有了一个不会被 API 费用卡脖子的开源底座。