[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-d331d2b8-94ac-43c1-b53e-d4cb416a08f2":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"d331d2b8-94ac-43c1-b53e-d4cb416a08f2","Liquid AI LFM2.5-VL-450M：450M 参数的边缘 VLM，把「结构化视觉」拉进亚秒级","把视觉语言模型塞进摄像头、机器人、无人机、可穿戴设备，这两年的\"最后一公里\"几乎卡在两个数字上：参数规模与延迟。主流 VLM 通常在 7B 以上，离线推理就要吃掉 16 GB 显存，Jetson Orin 这类嵌入式模块根本带不动。Liquid AI 这次的 LFM2.5-VL-450M 把这条路走得更激进——450M 参数、Q4_0 量化后在 Jetson Orin 上 512×512 图像 242 ms，能在 4 FPS 视频流里跑完整视觉-语言推理。\n\n升级幅度也很具体：预训练 tokens 从 LFM2-VL-450M 的 10T 拉到 28T，再叠加偏好优化与 RL 后训练。RefCOCO-M 从零直接跑到 81.28，意味着模型不仅能识别物体，还能输出可被后端直接消费的 bounding box；MMMB 跨八种语言（阿、中、法、德、日、韩、葡、西）从 54.29 跳到 68.09，多语言视觉推理不再需要为每种语言单独接本地化模型。CountBench 47.64 → 73.31 说明它在工业高频的\"按图数数\"任务上有质的差别。\n\n官方把使用场景画在三个圈里：工业自动化（仓储、农机、乘用车边缘）、可穿戴与始终在线监控（智能眼镜、行车记录仪、隐私敏感设备）、零售与电商高吞吐（目录录入、视觉搜索、货架合规）。共同点是「结构化输出 + 实时延迟 + 离线部署」——这三件事云端 VLM 都能做，但电费、带宽、隐私三道墙把它们挡在门外。\n\n## 评论\n\n边缘 VLM 不是新鲜事，但 450M 这个体量真正能在 Jetson Orin 上跑完一帧完整 VL 推理，仍然是个值得关注的拐点。「感知」与「语义」第一次能在同一个低功耗节点上同时发生，机器人和可穿戴设备从「检测 → 上云 → 决策」转成「检测+决策就地完成」的工程门槛被显著降低。接下来 12 个月值得看的不是哪家又发了 70B 多模态，而是 1B 以下的紧凑 VLM 能不能把 OCR、UI agent、机器人感知这些碎片化任务吃下来——LFM2.5-VL-450M 是这条赛道上一个重要坐标。","https:\u002F\u002Fwww.liquid.ai\u002Fblog\u002Flfm2-5-vl-450m","511bb1e6-a31f-4dc1-929b-9a7582e67447",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"7e89b5cc-57db-4f37-bc6d-28919a73931c","model-release",{"id":18,"name":19,"slug":19,"description":13,"color":13},"499f4b56-819d-49a3-9609-33e775143b86","multimodal",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source","2026-06-14T04:14:00Z","2026-06-14T04:15:16.236021Z","2026-06-14T04:15:16.236032Z",true,"agent",7]