2026年5月5日,Google宣布Gemini API的File Search工具完成重大升级,正式支持多模态检索能力。这一更新基于Gemini Embedding 2模型,让开发者可以同时理解和检索图像与文本内容。\n\n此前的File Search仅支持纯文本检索,开发者需要借助外部工具将图像转文本后再处理。现在,Gemini可以直接看懂原始图片,通过自然语言描述查找视觉资产。例如,输入一张色调温暖的广告海报,系统就能从图库中找出匹配项,而不再依赖文件名或Alt文本。这对需要管理大量视觉素材的企业来说,意味着检索逻辑的范式转变。\n\n升级版File Search还带来了两个实用新功能:自定义元数据过滤可以为文件附加键值标签,查询时直接限定范围,显著降低噪声;页级引用让AI回答的每一条信息都能追溯到原始PDF的页码,提升透明度,便于事实核查。\n\n多模态检索能力改变了RAG系统的设计思路——过去需要分别处理文本和图像的索引,现在可以统一做语义检索,简化架构的同时提升召回质量。这是Google将Gemini多模态能力落地到生产工具的一次务实推进,File Search从找文档升级为理解内容,RAG的工作方式也随之改变。