Liquid AI LFM2.5-VL-450M:450M 参数的边缘 VLM,把「结构化视觉」拉进亚秒级

把视觉语言模型塞进摄像头、机器人、无人机、可穿戴设备,这两年的"最后一公里"几乎卡在两个数字上:参数规模与延迟。主流 VLM 通常在 7B 以上,离线推理就要吃掉 16 GB 显存,Jetson Orin 这类嵌入式模块根本带不动。Liquid AI 这次的 LFM2.5-VL-450M 把这条路走得更激进——450M 参数、Q4_0 量化后在 Jetson Orin 上 512×512 图像 242 ms,能在 4 FPS 视频流里跑完整视觉-语言推理。 升级幅度也很具体:预训练 tokens 从 LFM2-VL-450M 的 10T 拉到 28T,再叠加偏好优化与 RL 后训练。RefCOCO-M 从零直接跑到 81.28,意味着模型不仅能识别物体,还能输出可被后端直接消费的 bounding box;MMMB 跨八种语言(阿、中、法、德、日、韩、葡、西)从 54.29 跳到 68.09,多语言视觉推理不再需要为每种语言单独接本地化模型。CountBench 47.64 → 73.31 说明它在工业高频的"按图数数"任务上有质的差别。 官方把使用场景画在三个圈里:工业自动化(仓储、农机、乘用车边缘)、可穿戴与始终在线监控(智能眼镜、行车记录仪、隐私敏感设备)、零售与电商高吞吐(目录录入、视觉搜索、货架合规)。共同点是「结构化输出 + 实时延迟 + 离线部署」——这三件事云端 VLM 都能做,但电费、带宽、隐私三道墙把它们挡在门外。 ## 评论 边缘 VLM 不是新鲜事,但 450M 这个体量真正能在 Jetson Orin 上跑完一帧完整 VL 推理,仍然是个值得关注的拐点。「感知」与「语义」第一次能在同一个低功耗节点上同时发生,机器人和可穿戴设备从「检测 → 上云 → 决策」转成「检测+决策就地完成」的工程门槛被显著降低。接下来 12 个月值得看的不是哪家又发了 70B 多模态,而是 1B 以下的紧凑 VLM 能不能把 OCR、UI agent、机器人感知这些碎片化任务吃下来——LFM2.5-VL-450M 是这条赛道上一个重要坐标。