DeepSeek V4 Flash(非推理版):开源 MoE 的低价高吞吐新选项

5月12日,DeepSeek 悄然上线了 DeepSeek-V4-Flash 非推理版,这是继4月24日 V4 系列发布后的又一次版本补充。与此前发布的 V4-Pro 和带推理能力的 V4-Flash 不同,这次的非推理版本彻底放弃了思维链推理能力,换来的是更低的 API 价格和更高的吞吐量——输入 tokens 成本仅为 V4-Pro 的约1/7,每百万 tokens 仅0.14美元,输出也只要0.28美元。 从架构上看,V4-Flash(非推理)仍然保留了稀疏 MoE 的核心设计:284B 总参数量,每次推理激活13B参数,上下文窗口达1M tokens。官方透露,在简单 Agent 任务上,其表现与 V4-Pro 持平。这并不令人意外——当任务不需要多步推理时,强大的思维链能力就成了多余的功耗。 这次发布的战略意图相当明确:在不需要复杂推理的消费级应用场景(批量文案处理、客服对话、文档摘要等),DeepSeek 希望以价格优势抢占市场份额。V4-Flash(非推理)每百万 tokens 输入仅需0.14美元,这个价格在开源 MoE 模型中极具竞争力,甚至可以与不少闭源小模型贴身肉搏。 从行业角度看,这种去掉推理能力换低价的策略折射出一个趋势:2026年的 LLM 市场正在加速分层。高端推理任务由 GPT-5.5、Claude Opus 4.7 等顶级闭源模型把持,而在中端场景,开源 MoE 模型正在快速填补空白,并通过极致压缩成本来争夺本属于传统 NLP 管道的市场。 值得关注的是,DeepSeek 选择在 V4-Pro 正式发布不到三周后就推出非推理变体,说明其产品迭代节奏已经比传统闭源厂商快出一个量级。对开发者而言,这既是好事——有更多工具箱可选;也是挑战——模型选择的技术门槛正在上升,选错型号可能意味着浪费算力或达不到效果。 未来,随着更多去推理化的变体出现,我们或许会看到 LLM 的定价体系进一步碎片化:同系列模型的不同配置,将覆盖从几美元到几厘每 token 的广泛价格带。DeepSeek V4-Flash(非推理)只是这场效率战争的最新一枚棋子。