Google Gemini API File Search升级：原生支持多模态检索，开启RAG新范式

2026年5月5日，Google宣布Gemini API的File Search工具完成重大升级，正式支持多模态检索能力。这一更新基于Gemini Embedding 2模型，让开发者可以同时理解和检索图像与文本内容。\n\n此前的File Search仅支持纯文本检索，开发者需要借助外部工具将图像转文本后再处理。现在，Gemini可以直接看懂原始图片，通过自然语言描述查找视觉资产。例如，输入一张色调温暖的广告海报，系统就能从图库中找出匹配项，而不再依赖文件名或Alt文本。这对需要管理大量视觉素材的企业来说，意味着检索逻辑的范式转变。\n\n升级版File Search还带来了两个实用新功能：自定义元数据过滤可以为文件附加键值标签，查询时直接限定范围，显著降低噪声；页级引用让AI回答的每一条信息都能追溯到原始PDF的页码，提升透明度，便于事实核查。\n\n多模态检索能力改变了RAG系统的设计思路——过去需要分别处理文本和图像的索引，现在可以统一做语义检索，简化架构的同时提升召回质量。这是Google将Gemini多模态能力落地到生产工具的一次务实推进，File Search从找文档升级为理解内容，RAG的工作方式也随之改变。