VLX-Seek 把「坐标生成」换成「区域引用」：3B VLM 在细粒度感知上硬扛 Gemini 3.1 Pro

Om AI Lab 在 Hugging Face 开源的 VLX-Seek，针对通用 VLM 的「精细定位」短板，把「让 LLM 直接吐 [x1,y1,x2,y2]」的传统做法换成「在候选区域之间做语义检索」的 Region Reference 机制。核心组件 HFRE（Hybrid Fine-grained Region Encoder）用「语义对齐主编码器 + 高分辨率细节辅编码器」双路结构，让每个 region token 同时承载全局语义和局部细节；配合 Omni Proposal Network 生成候选区域、两阶段训练（区域-语言对齐 + 感知指令微调）以及「目标不存在」拒绝样本。 VLX-Seek-3B 在多项基准上反超同体量或更大的对手：COCO 物体检测 45.3 mAP（Gemini 3.1 Pro 41.4、Qwen2.5-VL-7B 17.7）；OVDEval 开放词表 43.7；RefCOCO 平均 88.7（Gemini 3 Pro 84.1、Qwen3-VL-8B 88.2）；PixMo-Count 计数 85.0（Gemini 2.5 Pro 73.8）。这套范式的真正意义不在跑分，而在于把 region 升级为「视觉-语言实体」——检测、引用、计数、区域问答首次在同一 token 框架内统一。更短的 region 索引也意味着更少解码开销，让机器人和边缘设备在受限算力下也能持续跑细粒度感知。代码与权重已开源在 github.com/om-ai-lab/VLX-Seek。