微软MAI-Thinking-1：清洁训练的35B MoE推理模型，对位Claude Opus 4.6与Sonnet 4.6

2026年6月2日Build大会，Microsoft AI发布首个自研推理模型MAI-Thinking-1：35B激活参数、约1T总参数的稀疏MoE，256K上下文。未对第三方模型蒸馏，数据为可追溯商业授权语料；「Hill-Climbing Machine」是迭代闭环的一部分，安全性与能力奖励在同一RL回路统一训练。AIME 2025达97.0%、AIME 2026达94.5%，SWE-Bench Pro与Claude Opus 4.6基本持平；Anthropic合作的1276项Surge盲测中，用户偏好度超过Claude Sonnet 4.6。模型与微软自研加速器和内部RL框架共设计，支持Chat Completions API与函数调用，瞄准企业级Agent编码。Mustafa Suleyman将其定位为迈向「Humanist Superintelligence」的一步，强调模型应保持辅助性、拒绝以安全为名拒绝合法请求。这与OpenAI、Anthropic纯能力竞赛形成对照，数据可解释性、低推理成本与可控对齐正成为新一轮推理模型的差异化战场。