上下文竞赛降温:10M token 质量真相

上下文竞赛降温:10M token 质量真相 4月5日 Meta 发布 Llama 4 Scout,宣称支持 1000 万 token 上下文——没有任何开源模型接近这个数字。但拨开营销话术,实际情况要复杂得多。 LongBench v2、RULER 等标准化评测显示,当前模型的有效检索范围大多落在 128K 到 1M token 之间。一旦超过这个范围,模型在关键信息定位、推理连贯性上的表现开始显著下滑。10M 是技术上限,1M 才是当前算法和硬件约束下的有效甜点。 与冲击理论上限的路线不同,Qwen3.6-Plus 和 Claude Opus 4.7 选择了在 1M 上下文内做到最优。阿里 4 月 29 日发布的 Qwen3.6-Plus 主打 Agent 编程场景,1M token 足以覆盖完整代码仓库分析,且编程质量更稳定—— Llama 4 Scout 赌的是宽,Qwen3.6-Plus 赌的是深,两者定位根本不同。 上下文长度竞赛正在经历一次理性回归。10M token 证明了工程上可以实现,为超长文档处理奠定了基础;但在当前注意力机制和硬件的约束下,1M token 才是生产环境的现实选择。对于正在选型的工程师来说,关键是问自己:你要处理的是一整座图书馆,还是一层楼的藏书?前者值得押注 10M token 的未来,后者现在选 1M token 模型就够了。