MiniCPM5-1B:1B级新王登基,OpenBMB用17.9智能指数重写小模型效率边界

OpenBMB 近日发布 MiniCPM5-1B,作为 MiniCPM5 系列首个 checkpoint,它以 10 亿参数的紧凑规模在 Artificial Analysis Intelligence Index 上拿下 17.9 分,刷新 1B 及以下开源模型纪录。比次优的 Qwen3.5 0.8B 推理版(10.5)高出 7.4 分,也以不到一半的参数压制了 Qwen3.5 2B(16.3)。相比上一代 MiniCPM-V 4.6 1.3B(12.7),新模型参数减少约 23% 的同时智能反涨 5 分,把小模型 Pareto 前沿又往左上推了一格。 训练范式上,后训练被拆成 SFT、On-Policy Distillation(OPD)和 RL 三段:先做有监督微调,再让模型在自采样轨迹上蒸馏,最后用强化学习打磨。OPD 让模型在训练时就能"自己思考",无需冷启动蒸馏数据;RL 阶段在 OPD 把分布校准到接近 SFT 模型后,规避了常见塌缩。这是这次 1B 模型能跑出 17.9 智能分的关键。 能力上,模型内置 `<think>` 模板和 `enable_thinking` 开关,让同一 checkpoint 既能当"秒回助理"也能当"深思熟虑的推理者"。代码与智能体能力尤其突出,42.57 的综合均分明显领先同体量对手。AA-Omniscience 拿到 -1 分,是同尺寸最高——它宁可拒绝回答也不瞎猜,比硬卷答题率更贴近真实部署需求。 部署侧,官方同步放出 BF16、GGUF、MLX 三种格式,128K 上下文窗口 + 1B 参数的组合让笔记本、手机、桌面宠物都跑得动。 把视野拉远看,1B 级逆袭意味着三件事:端侧 Agent 真正具备"类主机"推理能力;AI 部署成本曲线继续下探;"参数越大越好"的旧叙事正被"训练后+蒸馏+RL"组合拳瓦解。MiniCPM5-1B 证明只要训练后流程做扎实,1B 也能承担生产级 Agent 任务,本地 1B 可能不再是"凑合用"的备胎,而是低延迟、高隐私场景的第一选择。