VLX-Seek 把「坐标生成」换成「区域引用」:3B VLM 在细粒度感知上硬扛 Gemini 3.1 Pro

Om AI Lab 在 Hugging Face 开源的 VLX-Seek,针对通用 VLM 的「精细定位」短板,把「让 LLM 直接吐 [x1,y1,x2,y2]」的传统做法换成「在候选区域之间做语义检索」的 Region Reference 机制。 核心组件 HFRE(Hybrid Fine-grained Region Encoder)用「语义对齐主编码器 + 高分辨率细节辅编码器」双路结构,让每个 region token 同时承载全局语义和局部细节;配合 Omni Proposal Network 生成候选区域、两阶段训练(区域-语言对齐 + 感知指令微调)以及「目标不存在」拒绝样本。 VLX-Seek-3B 在多项基准上反超同体量或更大的对手:COCO 物体检测 45.3 mAP(Gemini 3.1 Pro 41.4、Qwen2.5-VL-7B 17.7);OVDEval 开放词表 43.7;RefCOCO 平均 88.7(Gemini 3 Pro 84.1、Qwen3-VL-8B 88.2);PixMo-Count 计数 85.0(Gemini 2.5 Pro 73.8)。 这套范式的真正意义不在跑分,而在于把 region 升级为「视觉-语言实体」——检测、引用、计数、区域问答首次在同一 token 框架内统一。更短的 region 索引也意味着更少解码开销,让机器人和边缘设备在受限算力下也能持续跑细粒度感知。代码与权重已开源在 github.com/om-ai-lab/VLX-Seek。