微软MAI-Thinking-1:清洁训练的35B MoE推理模型,对位Claude Opus 4.6与Sonnet 4.6

2026年6月2日Build大会,Microsoft AI发布首个自研推理模型MAI-Thinking-1:35B激活参数、约1T总参数的稀疏MoE,256K上下文。未对第三方模型蒸馏,数据为可追溯商业授权语料;「Hill-Climbing Machine」是迭代闭环的一部分,安全性与能力奖励在同一RL回路统一训练。AIME 2025达97.0%、AIME 2026达94.5%,SWE-Bench Pro与Claude Opus 4.6基本持平;Anthropic合作的1276项Surge盲测中,用户偏好度超过Claude Sonnet 4.6。模型与微软自研加速器和内部RL框架共设计,支持Chat Completions API与函数调用,瞄准企业级Agent编码。Mustafa Suleyman将其定位为迈向「Humanist Superintelligence」的一步,强调模型应保持辅助性、拒绝以安全为名拒绝合法请求。这与OpenAI、Anthropic纯能力竞赛形成对照,数据可解释性、低推理成本与可控对齐正成为新一轮推理模型的差异化战场。