微博 3B 模型 VibeThinker 登顶推理榜:小模型也能正面硬刚旗舰

新浪微博 AI 团队的 VibeThinker-3B 在 AIME26(94.3)、LiveCodeBench v6(80.2 Pass@1)、IMO-AnswerBench(76.4)等基准上与 DeepSeek V3.2(671B)、GLM-5(744B)、Gemini 3 Pro 正面对位,把"3B 也能追平千亿"这件事又刷新了一遍。模型权重、训练代码与 14 页技术报告已在 Hugging Face 与 GitHub 完全开源(arXiv:2606.16140)。 技术上,VibeThinker-3B 以 Qwen2.5-Coder-3B 为基座,沿用 VibeThinker-1.5B 的"频谱到信号"(SSP)后训练范式,把流程拆成"课程式监督微调—多域强化学习—离线自蒸馏"三段。团队由此提出"参数压缩-覆盖假说":可验证推理可被压缩进小而密的"推理核",而开放域知识与通用能力则需广泛的参数覆盖——把"模型该做多大"从凭直觉变成可拆解的设计变量。 值得追问的是"可验证推理"赛道。数学、代码、STEM 这类答案可机审的任务,奖励信号密,更像题海+验证器的工程战。DeepSeek-R1 蒸馏、Phi-4、QwQ 都走过同一条路。但社区对 IMO-AnswerBench、LiveCodeBench 是否被针对性训练仍存争议——96.1% 的 LeetCode 近期赛题接受率本身也提示了同源数据风险。 无论结论如何,VibeThinker-3B 至少回答了一个长期困惑:在能被形式化验证的子领域,模型规模不是决定性因素,训练侧的数据与奖励工程才是新瓶颈。这对追求"小而强"的终端 Agent 与嵌入式推理意味着比想象中更早的天花板。