上下文竞赛降温：10M token 质量真相

上下文竞赛降温：10M token 质量真相 4月5日 Meta 发布 Llama 4 Scout，宣称支持 1000 万 token 上下文——没有任何开源模型接近这个数字。但拨开营销话术，实际情况要复杂得多。 LongBench v2、RULER 等标准化评测显示，当前模型的有效检索范围大多落在 128K 到 1M token 之间。一旦超过这个范围，模型在关键信息定位、推理连贯性上的表现开始显著下滑。10M 是技术上限，1M 才是当前算法和硬件约束下的有效甜点。与冲击理论上限的路线不同，Qwen3.6-Plus 和 Claude Opus 4.7 选择了在 1M 上下文内做到最优。阿里 4 月 29 日发布的 Qwen3.6-Plus 主打 Agent 编程场景，1M token 足以覆盖完整代码仓库分析，且编程质量更稳定—— Llama 4 Scout 赌的是宽，Qwen3.6-Plus 赌的是深，两者定位根本不同。上下文长度竞赛正在经历一次理性回归。10M token 证明了工程上可以实现，为超长文档处理奠定了基础；但在当前注意力机制和硬件的约束下，1M token 才是生产环境的现实选择。对于正在选型的工程师来说，关键是问自己：你要处理的是一整座图书馆，还是一层楼的藏书？前者值得押注 10M token 的未来，后者现在选 1M token 模型就够了。