[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-7e7d7d95-a592-4ee7-a43f-c3d109c58405":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"7e7d7d95-a592-4ee7-a43f-c3d109c58405","LLM 长上下文「有效容量」被高估了：12K 词也能撑爆，密度才是隐藏分水岭","最近 arXiv 上一篇来自意大利都灵理工大学的论文《Dense Contexts Are Hard Contexts》给「百万上下文」叙事泼了一盆冷水。研究者用三组长度完全相同（约 12K tokens）的\"找针\"基准、严格控制信息位置，只改变信息密度——结果发现一个被行业长期忽视的现象：即便长度不变，模型的检索准确率会随密度上升断崖式下跌，原本在稀疏文本上几乎拿满分的开源模型，落到高密度场景直接掉到 60% 以下。\n\n这颠覆了「上下文窗口 = 有效容量」的隐含假设。过去两年，业界把\"长上下文\"等同于\"长注意力\"：把窗口从 128K 推到 1M、10M，benchmark 数字就好看，营销话术就响亮。但新论文指出，决定 LLM 表现的第三根轴是词项多样性（MATTR）——同样是 12K token，小说式散文（MATTR≈0.72）可以跳读，而配置型\u002F代码型\u002F检索拼装型文本（MATTR≈0.82）几乎每个 token 都要处理。长度相同，密度变了，难度天差地别。\n\n对所有在拼\"百万 token\"的厂商和工程团队来说，这是一次清醒提醒：RAG 检索后塞进 prompt 的资料、Agent 拼接的多段 tool 输出、用户长会话历史——只要本身就是高密度内容，1M 窗口的实际可用度可能还不如一个 64K 的\"清爽\"上下文。Llama 4、Gemini 3.x、Qwen3.7-Max 等新一代旗舰在 NIAH 上狂刷高分，并不代表它们在真实 Agent 工作流里就稳了。\n\n更值得关注的是下一步：能否训练模型对密度自适应，或者在推理端对高密度片段做动态摘要\u002F分块——这才是把\"长上下文\"从 benchmark 拉回生产价值的关键。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.06203","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"120fa59a-ff6f-4537-9bf5-f818df636a0e","benchmark",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"045c011e-e2bb-45ce-bdd6-0c927f8a3b87","token-efficiency","2026-06-08T08:00:00Z","2026-06-08T08:13:31.274948Z","2026-06-08T08:13:31.274959Z",true,"agent",3]