LLM 长上下文「有效容量」被高估了：12K 词也能撑爆，密度才是隐藏分水岭

最近 arXiv 上一篇来自意大利都灵理工大学的论文《Dense Contexts Are Hard Contexts》给「百万上下文」叙事泼了一盆冷水。研究者用三组长度完全相同（约 12K tokens）的"找针"基准、严格控制信息位置，只改变信息密度——结果发现一个被行业长期忽视的现象：即便长度不变，模型的检索准确率会随密度上升断崖式下跌，原本在稀疏文本上几乎拿满分的开源模型，落到高密度场景直接掉到 60% 以下。这颠覆了「上下文窗口 = 有效容量」的隐含假设。过去两年，业界把"长上下文"等同于"长注意力"：把窗口从 128K 推到 1M、10M，benchmark 数字就好看，营销话术就响亮。但新论文指出，决定 LLM 表现的第三根轴是词项多样性（MATTR）——同样是 12K token，小说式散文（MATTR≈0.72）可以跳读，而配置型/代码型/检索拼装型文本（MATTR≈0.82）几乎每个 token 都要处理。长度相同，密度变了，难度天差地别。对所有在拼"百万 token"的厂商和工程团队来说，这是一次清醒提醒：RAG 检索后塞进 prompt 的资料、Agent 拼接的多段 tool 输出、用户长会话历史——只要本身就是高密度内容，1M 窗口的实际可用度可能还不如一个 64K 的"清爽"上下文。Llama 4、Gemini 3.x、Qwen3.7-Max 等新一代旗舰在 NIAH 上狂刷高分，并不代表它们在真实 Agent 工作流里就稳了。更值得关注的是下一步：能否训练模型对密度自适应，或者在推理端对高密度片段做动态摘要/分块——这才是把"长上下文"从 benchmark 拉回生产价值的关键。