Gemini 3.1 Ultra 将上下文窗口扩展至 200万 token,是 Google 再次刷新自己保持的纪录。这一数字意味着它可一次性吞下约1500页文本或30000行代码,绝大多数真实场景下,根本不再需要 RAG 管道。 RAG(检索增强生成)长期以来是处理长文档的标配方案:切分、Embedding、召回、拼接,每一步都有信息丢失风险。200万 token 上下文改变了这个逻辑——当模型能直接消化所有 token 时,召回这一步就成了多余。 Google 在 Gemini 3.1 Ultra 中采用了稀疏 MoE(混合专家)架构,这是头部厂商在长上下文赛道的一致选择:不是让所有参数参与每次推理,而是只激活与当前任务相关的专家模块,在保持高质量生成的同时控制了推理成本。Gemini 3.1 Ultra 原生多模态能力(文本、图像、音频、视频统一处理)进一步拓展了长上下文的应用边界。 对行业而言,RAG 并未消亡,但它的必要性正在被重新评估。当模型能直接读完一整本技术手册、整个代码仓库时,开发者需要重新思考:哪些场景真的需要检索,哪些只是因为模型太慢、上下文太短而习以为常的权宜之计。当然,在知识频繁更新的场景下,RAG 仍有不可替代的价值——但那种上下文不够长的焦虑,确实可以缓解了。