微博 3B 模型 VibeThinker 登顶推理榜：小模型也能正面硬刚旗舰

新浪微博 AI 团队的 VibeThinker-3B 在 AIME26（94.3）、LiveCodeBench v6（80.2 Pass@1）、IMO-AnswerBench（76.4）等基准上与 DeepSeek V3.2（671B）、GLM-5（744B）、Gemini 3 Pro 正面对位，把"3B 也能追平千亿"这件事又刷新了一遍。模型权重、训练代码与 14 页技术报告已在 Hugging Face 与 GitHub 完全开源（arXiv:2606.16140）。技术上，VibeThinker-3B 以 Qwen2.5-Coder-3B 为基座，沿用 VibeThinker-1.5B 的"频谱到信号"（SSP）后训练范式，把流程拆成"课程式监督微调—多域强化学习—离线自蒸馏"三段。团队由此提出"参数压缩-覆盖假说"：可验证推理可被压缩进小而密的"推理核"，而开放域知识与通用能力则需广泛的参数覆盖——把"模型该做多大"从凭直觉变成可拆解的设计变量。值得追问的是"可验证推理"赛道。数学、代码、STEM 这类答案可机审的任务，奖励信号密，更像题海+验证器的工程战。DeepSeek-R1 蒸馏、Phi-4、QwQ 都走过同一条路。但社区对 IMO-AnswerBench、LiveCodeBench 是否被针对性训练仍存争议——96.1% 的 LeetCode 近期赛题接受率本身也提示了同源数据风险。无论结论如何，VibeThinker-3B 至少回答了一个长期困惑：在能被形式化验证的子领域，模型规模不是决定性因素，训练侧的数据与奖励工程才是新瓶颈。这对追求"小而强"的终端 Agent 与嵌入式推理意味着比想象中更早的天花板。