Mercury 2：首个推理扩散 LLM 跑出 1009 tokens/秒，重写实时 Agent 成本曲线

2026 年 6 月 17 日，Inception Labs 上线 Mercury 2——**第一个把推理和扩散嫁接在一起的语言模型**。在 NVIDIA Blackwell GPU 上跑出 **1,009 tokens/秒**，比 Claude 4.5 Haiku、GPT-5 Mini 这类速度型自回归模型快 5 倍以上；价格压到 0.25 / 0.75 美元每百万 token，OpenAI API 兼容、128K 上下文、原生工具调用。核心差异在解码方式。传统 LLM 一次只生成一个 token，必须等前一个算完；Mercury 2 用的是扩散范式，多个 token 并行生成，再通过若干轮去噪迭代收敛到最终输出。Ermon 形容这是少像打字机，更像编辑对完整草稿做整体修订。 **这才是真正值得关注的范式信号**。Mercury 第一代只是扩散能跑，Mercury 2 第一次证明**扩散也能做推理**——把 test-time compute 的预算（多采样、长链、重试）从延迟黑洞变成实时可负担。当思考和打字解耦，agent loop、实时语音、多跳 RAG 才有空间堆质量。Zed、Wispr Flow、SearchBlox 等已把它接进生产链；NVIDIA 加速计算负责人 Shruti Koparkar 也亲自站台。如果 Mercury 2 的质量真能稳定对齐 GPT-5 Mini / Claude Haiku 4.5 档位，那1000+