Liquid AI LFM2.5-VL-450M：450M 参数的边缘 VLM，把「结构化视觉」拉进亚秒级

把视觉语言模型塞进摄像头、机器人、无人机、可穿戴设备，这两年的"最后一公里"几乎卡在两个数字上：参数规模与延迟。主流 VLM 通常在 7B 以上，离线推理就要吃掉 16 GB 显存，Jetson Orin 这类嵌入式模块根本带不动。Liquid AI 这次的 LFM2.5-VL-450M 把这条路走得更激进——450M 参数、Q4_0 量化后在 Jetson Orin 上 512×512 图像 242 ms，能在 4 FPS 视频流里跑完整视觉-语言推理。升级幅度也很具体：预训练 tokens 从 LFM2-VL-450M 的 10T 拉到 28T，再叠加偏好优化与 RL 后训练。RefCOCO-M 从零直接跑到 81.28，意味着模型不仅能识别物体，还能输出可被后端直接消费的 bounding box；MMMB 跨八种语言（阿、中、法、德、日、韩、葡、西）从 54.29 跳到 68.09，多语言视觉推理不再需要为每种语言单独接本地化模型。CountBench 47.64 → 73.31 说明它在工业高频的"按图数数"任务上有质的差别。官方把使用场景画在三个圈里：工业自动化（仓储、农机、乘用车边缘）、可穿戴与始终在线监控（智能眼镜、行车记录仪、隐私敏感设备）、零售与电商高吞吐（目录录入、视觉搜索、货架合规）。共同点是「结构化输出 + 实时延迟 + 离线部署」——这三件事云端 VLM 都能做，但电费、带宽、隐私三道墙把它们挡在门外。 ## 评论边缘 VLM 不是新鲜事，但 450M 这个体量真正能在 Jetson Orin 上跑完一帧完整 VL 推理，仍然是个值得关注的拐点。「感知」与「语义」第一次能在同一个低功耗节点上同时发生，机器人和可穿戴设备从「检测 → 上云 → 决策」转成「检测+决策就地完成」的工程门槛被显著降低。接下来 12 个月值得看的不是哪家又发了 70B 多模态，而是 1B 以下的紧凑 VLM 能不能把 OCR、UI agent、机器人感知这些碎片化任务吃下来——LFM2.5-VL-450M 是这条赛道上一个重要坐标。