2026 年 6 月 17 日,Inception Labs 上线 Mercury 2——**第一个把推理和扩散嫁接在一起的语言模型**。在 NVIDIA Blackwell GPU 上跑出 **1,009 tokens/秒**,比 Claude 4.5 Haiku、GPT-5 Mini 这类速度型自回归模型快 5 倍以上;价格压到 0.25 / 0.75 美元每百万 token,OpenAI API 兼容、128K 上下文、原生工具调用。 核心差异在解码方式。传统 LLM 一次只生成一个 token,必须等前一个算完;Mercury 2 用的是扩散范式,多个 token 并行生成,再通过若干轮去噪迭代收敛到最终输出。Ermon 形容这是少像打字机,更像编辑对完整草稿做整体修订。 **这才是真正值得关注的范式信号**。Mercury 第一代只是扩散能跑,Mercury 2 第一次证明**扩散也能做推理**——把 test-time compute 的预算(多采样、长链、重试)从延迟黑洞变成实时可负担。当思考和打字解耦,agent loop、实时语音、多跳 RAG 才有空间堆质量。Zed、Wispr Flow、SearchBlox 等已把它接进生产链;NVIDIA 加速计算负责人 Shruti Koparkar 也亲自站台。 如果 Mercury 2 的质量真能稳定对齐 GPT-5 Mini / Claude Haiku 4.5 档位,那1000+