VLX-Flow：把视频理解从「请求-响应」改造成「持续观察」的边缘 VLM

OM AI Lab 在 Hugging Face 发布 VLX-Flow，把视频 VLM 从离线「先拍完再问」改造为在线「持续观察、增量更新、可随时问答」的流式系统。核心是用 Linear Attention 的循环状态替代传统 KV Cache，叠加 Visual Cache + Semantic Memory 双层记忆结构，在长视频流下保持稳定的 TTFT 和受控的显存增长，可直接落地到摄像头、机器人、屏幕录制等边缘设备。