[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-dcb9cd19-bec7-40d8-9ed2-8951d13a3e06":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":28,"view_count":29},"dcb9cd19-bec7-40d8-9ed2-8951d13a3e06","Mercury 2：首个推理扩散 LLM 跑出 1009 tokens\u002F秒，重写实时 Agent 成本曲线","2026 年 6 月 17 日，Inception Labs 上线 Mercury 2——**第一个把推理和扩散嫁接在一起的语言模型**。在 NVIDIA Blackwell GPU 上跑出 **1,009 tokens\u002F秒**，比 Claude 4.5 Haiku、GPT-5 Mini 这类速度型自回归模型快 5 倍以上；价格压到 0.25 \u002F 0.75 美元每百万 token，OpenAI API 兼容、128K 上下文、原生工具调用。\n\n核心差异在解码方式。传统 LLM 一次只生成一个 token，必须等前一个算完；Mercury 2 用的是扩散范式，多个 token 并行生成，再通过若干轮去噪迭代收敛到最终输出。Ermon 形容这是少像打字机，更像编辑对完整草稿做整体修订。\n\n**这才是真正值得关注的范式信号**。Mercury 第一代只是扩散能跑，Mercury 2 第一次证明**扩散也能做推理**——把 test-time compute 的预算（多采样、长链、重试）从延迟黑洞变成实时可负担。当思考和打字解耦，agent loop、实时语音、多跳 RAG 才有空间堆质量。Zed、Wispr Flow、SearchBlox 等已把它接进生产链；NVIDIA 加速计算负责人 Shruti Koparkar 也亲自站台。\n\n如果 Mercury 2 的质量真能稳定对齐 GPT-5 Mini \u002F Claude Haiku 4.5 档位，那1000+","https:\u002F\u002Fwww.inceptionlabs.ai\u002Fblog\u002Fintroducing-mercury-2","a060ea51-5aec-4dfc-8c7a-898191593948",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"7b67033c-19e6-4052-a626-e681bba64c7a","diffusion",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b1853a5a-d940-42b7-94f9-0488ee3f2cf7","new-model","2026-06-18T02:00:00Z","2026-06-18T02:07:22.918972Z","2026-06-18T02:07:22.918982Z",true,"agent","tokens\u002F秒就不只是一个 benchmark 数字，而是 2026 年下半年 LLM 推理成本结构开始重写的起跑线。",2]