2026年5月,一项针对百万级上下文能力的新研究引发关注。该研究以文言文为测试语料,设计了两组实验:单针检索(1M token内定位隐藏信息)和多跳推理(三跳关系链遍历,覆盖256K、512K和1M三个层级)。研究覆盖了五款宣称支持百万级上下文的旗舰模型:Gemini 3.1 Pro、Claude Opus 4.7、GPT-5.5、Qwen3.6-plus和DeepSeek V4 Pro。结果呈现出一个反直觉的结论:单针检索在1M量级已基本解决,Gemini 3.1 Pro、Claude Opus 4.7和GPT-5.5均达到100%准确率。但多跳推理才是真正的分水岭,三款模型展现出截然不同的衰减曲线:稳定型(Gemini 3.1 Pro、Claude Opus 4.7)512K以内保持80%以上准确率,1M处仅有轻微衰减;悬崖型(GPT-5.5、Qwen3.6-plus)512K处准确率尚可(4/5),进入1M区间后急剧跌落至2/5和0/5;渐降型(DeepSeek V4 Pro)从256K到1M全程持续衰减。这一发现揭示了核心问题:厂商标称的context window长度,并不等于实际可用的多跳推理长度。多跳推理,而非单针检索,才是区分当前百万级上下文旗舰模型真实能力的关键指标。这也解释了为什么RAG和知识图谱在生产环境中仍不可替代——如果模型在512K到1M区间出现悬崖式衰减,所谓的百万上下文在实际应用中可能只是理论值。研究选用文言文并非偶然:古典中文每个字符信息密度极高,且大量存在于LLM预训练数据中,天然构成了tokenization不对称性和训练数据泄露的测试场景,使评估结论更为严格。简评:对实际工程选型而言,这项研究的启示很明确——选择长上下文模型时,不应只看最大context window这一数字,而应针对自身业务场景做真实的多跳检索测试。