1M上下文能力实测：Gemini 3.1 Pro与Claude Opus 4.7多跳推理稳定，GPT-5.5和Qwen3.6-plus在512K处现悬崖式衰减

2026年5月，一项针对百万级上下文能力的新研究引发关注。该研究以文言文为测试语料，设计了两组实验：单针检索（1M token内定位隐藏信息）和多跳推理（三跳关系链遍历，覆盖256K、512K和1M三个层级）。研究覆盖了五款宣称支持百万级上下文的旗舰模型：Gemini 3.1 Pro、Claude Opus 4.7、GPT-5.5、Qwen3.6-plus和DeepSeek V4 Pro。结果呈现出一个反直觉的结论：单针检索在1M量级已基本解决，Gemini 3.1 Pro、Claude Opus 4.7和GPT-5.5均达到100%准确率。但多跳推理才是真正的分水岭，三款模型展现出截然不同的衰减曲线：稳定型（Gemini 3.1 Pro、Claude Opus 4.7）512K以内保持80%以上准确率，1M处仅有轻微衰减；悬崖型（GPT-5.5、Qwen3.6-plus）512K处准确率尚可（4/5），进入1M区间后急剧跌落至2/5和0/5；渐降型（DeepSeek V4 Pro）从256K到1M全程持续衰减。这一发现揭示了核心问题：厂商标称的context window长度，并不等于实际可用的多跳推理长度。多跳推理，而非单针检索，才是区分当前百万级上下文旗舰模型真实能力的关键指标。这也解释了为什么RAG和知识图谱在生产环境中仍不可替代——如果模型在512K到1M区间出现悬崖式衰减，所谓的百万上下文在实际应用中可能只是理论值。研究选用文言文并非偶然：古典中文每个字符信息密度极高，且大量存在于LLM预训练数据中，天然构成了tokenization不对称性和训练数据泄露的测试场景，使评估结论更为严格。简评：对实际工程选型而言，这项研究的启示很明确——选择长上下文模型时，不应只看最大context window这一数字，而应针对自身业务场景做真实的多跳检索测试。