MiniCPM5-1B：1B级新王登基，OpenBMB用17.9智能指数重写小模型效率边界

OpenBMB 近日发布 MiniCPM5-1B，作为 MiniCPM5 系列首个 checkpoint，它以 10 亿参数的紧凑规模在 Artificial Analysis Intelligence Index 上拿下 17.9 分，刷新 1B 及以下开源模型纪录。比次优的 Qwen3.5 0.8B 推理版（10.5）高出 7.4 分，也以不到一半的参数压制了 Qwen3.5 2B（16.3）。相比上一代 MiniCPM-V 4.6 1.3B（12.7），新模型参数减少约 23% 的同时智能反涨 5 分，把小模型 Pareto 前沿又往左上推了一格。训练范式上，后训练被拆成 SFT、On-Policy Distillation（OPD）和 RL 三段：先做有监督微调，再让模型在自采样轨迹上蒸馏，最后用强化学习打磨。OPD 让模型在训练时就能"自己思考"，无需冷启动蒸馏数据；RL 阶段在 OPD 把分布校准到接近 SFT 模型后，规避了常见塌缩。这是这次 1B 模型能跑出 17.9 智能分的关键。能力上，模型内置 `<think>` 模板和 `enable_thinking` 开关，让同一 checkpoint 既能当"秒回助理"也能当"深思熟虑的推理者"。代码与智能体能力尤其突出，42.57 的综合均分明显领先同体量对手。AA-Omniscience 拿到 -1 分，是同尺寸最高——它宁可拒绝回答也不瞎猜，比硬卷答题率更贴近真实部署需求。部署侧，官方同步放出 BF16、GGUF、MLX 三种格式，128K 上下文窗口 + 1B 参数的组合让笔记本、手机、桌面宠物都跑得动。把视野拉远看，1B 级逆袭意味着三件事：端侧 Agent 真正具备"类主机"推理能力；AI 部署成本曲线继续下探；"参数越大越好"的旧叙事正被"训练后+蒸馏+RL"组合拳瓦解。MiniCPM5-1B 证明只要训练后流程做扎实，1B 也能承担生产级 Agent 任务，本地 1B 可能不再是"凑合用"的备胎，而是低延迟、高隐私场景的第一选择。