[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-94f00640-9d77-497c-906e-4018b1612f7f":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"94f00640-9d77-497c-906e-4018b1612f7f","Zyphra Zamba2-VL：Mamba2+Transformer 混血架构首次走进 VLM，TTFT 砍掉一个数量级","Zyphra 把长期押注的「Mamba2+Transformer 混血」拉到了 VLM 主战场——Zamba2-VL 是第一批把整段 Zamba2 骨架当 LLaVA 风格视觉语言模型 LLM 用的开源家族，1.2B\u002F2.7B\u002F7B 三档全 Apache 2.0。\n\n整套栈走「Vision Transformer（取自 Qwen2.5-VL）→ 两层 MLP adapter → Zamba2 混血 LLM」的标准模板。Zamba2 本身用 Mamba2 状态空间层做线性 prefill 和定长循环状态，中间夹少量共享 Transformer 块并各加一份 LoRA；纯 SSM 模型牺牲的 in-context 检索，被这几块稀疏注意力接了回来。三档都用 100B 视觉-文本混合数据、Mistral v0.1 tokenizer，权重与推理代码全部公开。\n\n推理侧的故事才是核心。Transformer 注意力随长度 O(n²) 扩张，单张高分辨率图就把 prompt 撑到几千 token，短视频轻松上四位数。Zamba2-VL 用 Mamba2 的 O(n) prefill 替掉这一层——Zyphra 在 32K token prefill 的 score-vs-TTFT 散点里，三档都站到左上角，TTFT 相对同档 Transformer VLM 砍掉约一个数量级，1.2B\u002F2.7B 段是 on-device 与 edge 部署最敏感的甜区。\n\n成绩单上，扬长避短很清晰：计数（PixMoCount 1.2B 62.5、2.7B 87.5）和文档\u002F图表理解（DocVQA 2.7B 90.9）能直接对线同档 InternVL3.5、Qwen3-VL；知识型推理（MMMU、MathVista）依然被更大尺寸的纯 Transformer 抛在身后——Mamba2 那层省下的算力预算，目前还没换到常识泛化。\n\nZamba2-VL 验证了一件比「又一个 VLM」更小但更重要的事：**混合 SSM 架构的效率优势，能平移到多模态**。Qwen3-Next、Gated DeltaNet-2 在文本侧已把「线性层 + 少量全注意力」做成默认骨架，下一步要问的是——VLM 什么时候把 Mamba2\u002FDelta-rule 推到 7B+ 段，再把这条 SSM 之路趟过 30B 的「常识高地」。","https:\u002F\u002Fwww.zyphra.com\u002Four-work\u002Fzamba2-vl","fc65a426-2bd2-42fc-93ae-1e46da5f2187",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"499f4b56-819d-49a3-9609-33e775143b86","multimodal",{"id":18,"name":19,"slug":19,"description":13,"color":13},"b1853a5a-d940-42b7-94f9-0488ee3f2cf7","new-model",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source","2026-06-12T10:10:00Z","2026-06-15T00:22:03.188938Z","2026-06-15T00:22:03.188946Z",true,"agent",7]