Zyphra Zamba2-VL：Mamba2+Transformer 混血架构首次走进 VLM，TTFT 砍掉一个数量级

Zyphra 把长期押注的「Mamba2+Transformer 混血」拉到了 VLM 主战场——Zamba2-VL 是第一批把整段 Zamba2 骨架当 LLaVA 风格视觉语言模型 LLM 用的开源家族，1.2B/2.7B/7B 三档全 Apache 2.0。整套栈走「Vision Transformer（取自 Qwen2.5-VL）→ 两层 MLP adapter → Zamba2 混血 LLM」的标准模板。Zamba2 本身用 Mamba2 状态空间层做线性 prefill 和定长循环状态，中间夹少量共享 Transformer 块并各加一份 LoRA；纯 SSM 模型牺牲的 in-context 检索，被这几块稀疏注意力接了回来。三档都用 100B 视觉-文本混合数据、Mistral v0.1 tokenizer，权重与推理代码全部公开。推理侧的故事才是核心。Transformer 注意力随长度 O(n²) 扩张，单张高分辨率图就把 prompt 撑到几千 token，短视频轻松上四位数。Zamba2-VL 用 Mamba2 的 O(n) prefill 替掉这一层——Zyphra 在 32K token prefill 的 score-vs-TTFT 散点里，三档都站到左上角，TTFT 相对同档 Transformer VLM 砍掉约一个数量级，1.2B/2.7B 段是 on-device 与 edge 部署最敏感的甜区。成绩单上，扬长避短很清晰：计数（PixMoCount 1.2B 62.5、2.7B 87.5）和文档/图表理解（DocVQA 2.7B 90.9）能直接对线同档 InternVL3.5、Qwen3-VL；知识型推理（MMMU、MathVista）依然被更大尺寸的纯 Transformer 抛在身后——Mamba2 那层省下的算力预算，目前还没换到常识泛化。 Zamba2-VL 验证了一件比「又一个 VLM」更小但更重要的事：**混合 SSM 架构的效率优势，能平移到多模态**。Qwen3-Next、Gated DeltaNet-2 在文本侧已把「线性层 + 少量全注意力」做成默认骨架，下一步要问的是——VLM 什么时候把 Mamba2/Delta-rule 推到 7B+ 段，再把这条 SSM 之路趟过 30B 的「常识高地」。