DeepSeek V4 Flash（非推理版）：开源 MoE 的低价高吞吐新选项

5月12日，DeepSeek 悄然上线了 DeepSeek-V4-Flash 非推理版，这是继4月24日 V4 系列发布后的又一次版本补充。与此前发布的 V4-Pro 和带推理能力的 V4-Flash 不同，这次的非推理版本彻底放弃了思维链推理能力，换来的是更低的 API 价格和更高的吞吐量——输入 tokens 成本仅为 V4-Pro 的约1/7，每百万 tokens 仅0.14美元，输出也只要0.28美元。从架构上看，V4-Flash（非推理）仍然保留了稀疏 MoE 的核心设计：284B 总参数量，每次推理激活13B参数，上下文窗口达1M tokens。官方透露，在简单 Agent 任务上，其表现与 V4-Pro 持平。这并不令人意外——当任务不需要多步推理时，强大的思维链能力就成了多余的功耗。这次发布的战略意图相当明确：在不需要复杂推理的消费级应用场景（批量文案处理、客服对话、文档摘要等），DeepSeek 希望以价格优势抢占市场份额。V4-Flash（非推理）每百万 tokens 输入仅需0.14美元，这个价格在开源 MoE 模型中极具竞争力，甚至可以与不少闭源小模型贴身肉搏。从行业角度看，这种去掉推理能力换低价的策略折射出一个趋势：2026年的 LLM 市场正在加速分层。高端推理任务由 GPT-5.5、Claude Opus 4.7 等顶级闭源模型把持，而在中端场景，开源 MoE 模型正在快速填补空白，并通过极致压缩成本来争夺本属于传统 NLP 管道的市场。值得关注的是，DeepSeek 选择在 V4-Pro 正式发布不到三周后就推出非推理变体，说明其产品迭代节奏已经比传统闭源厂商快出一个量级。对开发者而言，这既是好事——有更多工具箱可选；也是挑战——模型选择的技术门槛正在上升，选错型号可能意味着浪费算力或达不到效果。未来，随着更多去推理化的变体出现，我们或许会看到 LLM 的定价体系进一步碎片化：同系列模型的不同配置，将覆盖从几美元到几厘每 token 的广泛价格带。DeepSeek V4-Flash（非推理）只是这场效率战争的最新一枚棋子。