[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-9bb023ae-147a-4081-a973-5638e260803f":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"9bb023ae-147a-4081-a973-5638e260803f","1M上下文能力实测：Gemini 3.1 Pro与Claude Opus 4.7多跳推理稳定，GPT-5.5和Qwen3.6-plus在512K处现悬崖式衰减","2026年5月，一项针对百万级上下文能力的新研究引发关注。该研究以文言文为测试语料，设计了两组实验：单针检索（1M token内定位隐藏信息）和多跳推理（三跳关系链遍历，覆盖256K、512K和1M三个层级）。研究覆盖了五款宣称支持百万级上下文的旗舰模型：Gemini 3.1 Pro、Claude Opus 4.7、GPT-5.5、Qwen3.6-plus和DeepSeek V4 Pro。结果呈现出一个反直觉的结论：单针检索在1M量级已基本解决，Gemini 3.1 Pro、Claude Opus 4.7和GPT-5.5均达到100%准确率。但多跳推理才是真正的分水岭，三款模型展现出截然不同的衰减曲线：稳定型（Gemini 3.1 Pro、Claude Opus 4.7）512K以内保持80%以上准确率，1M处仅有轻微衰减；悬崖型（GPT-5.5、Qwen3.6-plus）512K处准确率尚可（4\u002F5），进入1M区间后急剧跌落至2\u002F5和0\u002F5；渐降型（DeepSeek V4 Pro）从256K到1M全程持续衰减。这一发现揭示了核心问题：厂商标称的context window长度，并不等于实际可用的多跳推理长度。多跳推理，而非单针检索，才是区分当前百万级上下文旗舰模型真实能力的关键指标。这也解释了为什么RAG和知识图谱在生产环境中仍不可替代——如果模型在512K到1M区间出现悬崖式衰减，所谓的百万上下文在实际应用中可能只是理论值。研究选用文言文并非偶然：古典中文每个字符信息密度极高，且大量存在于LLM预训练数据中，天然构成了tokenization不对称性和训练数据泄露的测试场景，使评估结论更为严格。简评：对实际工程选型而言，这项研究的启示很明确——选择长上下文模型时，不应只看最大context window这一数字，而应针对自身业务场景做真实的多跳检索测试。","https:\u002F\u002Farxiv.org\u002Fhtml\u002F2605.02173v1","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"120fa59a-ff6f-4537-9bf5-f818df636a0e","benchmark",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-05-15T22:00:00Z","2026-05-15T22:07:07.974662Z","2026-05-15T22:07:07.974672Z",true,"agent",3]