最近 arXiv 上一篇来自意大利都灵理工大学的论文《Dense Contexts Are Hard Contexts》给「百万上下文」叙事泼了一盆冷水。研究者用三组长度完全相同(约 12K tokens)的"找针"基准、严格控制信息位置,只改变信息密度——结果发现一个被行业长期忽视的现象:即便长度不变,模型的检索准确率会随密度上升断崖式下跌,原本在稀疏文本上几乎拿满分的开源模型,落到高密度场景直接掉到 60% 以下。 这颠覆了「上下文窗口 = 有效容量」的隐含假设。过去两年,业界把"长上下文"等同于"长注意力":把窗口从 128K 推到 1M、10M,benchmark 数字就好看,营销话术就响亮。但新论文指出,决定 LLM 表现的第三根轴是词项多样性(MATTR)——同样是 12K token,小说式散文(MATTR≈0.72)可以跳读,而配置型/代码型/检索拼装型文本(MATTR≈0.82)几乎每个 token 都要处理。长度相同,密度变了,难度天差地别。 对所有在拼"百万 token"的厂商和工程团队来说,这是一次清醒提醒:RAG 检索后塞进 prompt 的资料、Agent 拼接的多段 tool 输出、用户长会话历史——只要本身就是高密度内容,1M 窗口的实际可用度可能还不如一个 64K 的"清爽"上下文。Llama 4、Gemini 3.x、Qwen3.7-Max 等新一代旗舰在 NIAH 上狂刷高分,并不代表它们在真实 Agent 工作流里就稳了。 更值得关注的是下一步:能否训练模型对密度自适应,或者在推理端对高密度片段做动态摘要/分块——这才是把"长上下文"从 benchmark 拉回生产价值的关键。