Zyphra 把长期押注的「Mamba2+Transformer 混血」拉到了 VLM 主战场——Zamba2-VL 是第一批把整段 Zamba2 骨架当 LLaVA 风格视觉语言模型 LLM 用的开源家族,1.2B/2.7B/7B 三档全 Apache 2.0。 整套栈走「Vision Transformer(取自 Qwen2.5-VL)→ 两层 MLP adapter → Zamba2 混血 LLM」的标准模板。Zamba2 本身用 Mamba2 状态空间层做线性 prefill 和定长循环状态,中间夹少量共享 Transformer 块并各加一份 LoRA;纯 SSM 模型牺牲的 in-context 检索,被这几块稀疏注意力接了回来。三档都用 100B 视觉-文本混合数据、Mistral v0.1 tokenizer,权重与推理代码全部公开。 推理侧的故事才是核心。Transformer 注意力随长度 O(n²) 扩张,单张高分辨率图就把 prompt 撑到几千 token,短视频轻松上四位数。Zamba2-VL 用 Mamba2 的 O(n) prefill 替掉这一层——Zyphra 在 32K token prefill 的 score-vs-TTFT 散点里,三档都站到左上角,TTFT 相对同档 Transformer VLM 砍掉约一个数量级,1.2B/2.7B 段是 on-device 与 edge 部署最敏感的甜区。 成绩单上,扬长避短很清晰:计数(PixMoCount 1.2B 62.5、2.7B 87.5)和文档/图表理解(DocVQA 2.7B 90.9)能直接对线同档 InternVL3.5、Qwen3-VL;知识型推理(MMMU、MathVista)依然被更大尺寸的纯 Transformer 抛在身后——Mamba2 那层省下的算力预算,目前还没换到常识泛化。 Zamba2-VL 验证了一件比「又一个 VLM」更小但更重要的事:**混合 SSM 架构的效率优势,能平移到多模态**。Qwen3-Next、Gated DeltaNet-2 在文本侧已把「线性层 + 少量全注意力」做成默认骨架,下一步要问的是——VLM 什么时候把 Mamba2/Delta-rule 推到 7B+ 段,再把这条 SSM 之路趟过 30B 的「常识高地」。