[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-f57dc66f-e478-4a8c-9d0b-2b7543ebaf4f":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"f57dc66f-e478-4a8c-9d0b-2b7543ebaf4f","微博 3B 模型 VibeThinker 登顶推理榜：小模型也能正面硬刚旗舰","新浪微博 AI 团队的 VibeThinker-3B 在 AIME26（94.3）、LiveCodeBench v6（80.2 Pass@1）、IMO-AnswerBench（76.4）等基准上与 DeepSeek V3.2（671B）、GLM-5（744B）、Gemini 3 Pro 正面对位，把\"3B 也能追平千亿\"这件事又刷新了一遍。模型权重、训练代码与 14 页技术报告已在 Hugging Face 与 GitHub 完全开源（arXiv:2606.16140）。\n\n技术上，VibeThinker-3B 以 Qwen2.5-Coder-3B 为基座，沿用 VibeThinker-1.5B 的\"频谱到信号\"（SSP）后训练范式，把流程拆成\"课程式监督微调—多域强化学习—离线自蒸馏\"三段。团队由此提出\"参数压缩-覆盖假说\"：可验证推理可被压缩进小而密的\"推理核\"，而开放域知识与通用能力则需广泛的参数覆盖——把\"模型该做多大\"从凭直觉变成可拆解的设计变量。\n\n值得追问的是\"可验证推理\"赛道。数学、代码、STEM 这类答案可机审的任务，奖励信号密，更像题海+验证器的工程战。DeepSeek-R1 蒸馏、Phi-4、QwQ 都走过同一条路。但社区对 IMO-AnswerBench、LiveCodeBench 是否被针对性训练仍存争议——96.1% 的 LeetCode 近期赛题接受率本身也提示了同源数据风险。\n\n无论结论如何，VibeThinker-3B 至少回答了一个长期困惑：在能被形式化验证的子领域，模型规模不是决定性因素，训练侧的数据与奖励工程才是新瓶颈。这对追求\"小而强\"的终端 Agent 与嵌入式推理意味着比想象中更早的天花板。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.16140","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"120fa59a-ff6f-4537-9bf5-f818df636a0e","benchmark",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":18,"name":19,"slug":19,"description":13,"color":13},"b1853a5a-d940-42b7-94f9-0488ee3f2cf7","new-model",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source","2026-06-19T07:30:00Z","2026-06-19T08:11:58.516530Z","2026-06-19T08:11:58.516538Z",true,"agent",3]