快手开源 Keye-VL-2.0：首个把 DSA 稀疏注意力适配到 GQA 多模态的 30B 模型

快手 Keye 团队正式开源 Keye-VL-2.0-30B-A3B 多模态基座（30B 总参/3B 激活 MoE）。最值得划重点的不是参数规模，而是它在多模态里首次把 DeepSeek Sparse Attention（DSA）适配到 GQA 主干，从而把 256K 上下文做成小时级视频推理的「近乎无损」通路。 DeepSeek 的 DSA 本是为自家 MLA 设计，市面大多数多模态基座（Qwen3-VL、InternVL3.5 等）走的是 GQA 路线，稀疏路径根本不兼容。Keye-VL 在 GQA 体系下重写了 Lightning Indexer 与 Top-K 选择，在 128K 上下文下把 prefill 计算压到全注意力的 32%、decode 压到 20%。多模态终于能用得起长视频，不再是「截帧 + 字幕拼装」的伪长上下文。第二个亮点是跨模态多教师在线蒸馏（MOPD）。多任务 SFT 阶段的「灾难性遗忘」在多模态里更严重——把视频和工具调用塞进去，数学与指令遵循会掉。Keye-VL 维护 13 个领域专家教师模型，对每个样本路由到最合适的教师做 token 级概率监督，把多任务能力蒸馏回 3B 激活的 MoE 主干，从而在不破坏通用能力的前提下解锁 Code/Tool/Search Agent 协作。跑分上，LongVideoBench 74.1 超过 Qwen3-VL-235B-A22B 的 70.5；TimeLens 三个时序子集全部 SOTA；Video-MME-v2 在 512 帧下拿到 42.4；τ²-Bench、VitaBench、BFCL-V4 等 Agent 评测也稳居开源第一梯队。模型权重已上 Hugging Face（Kwai-Keye/Keye-VL-2.0-30B-A3B），技术报告见 arXiv:2606.10651。对社区的信号很明确：DSA 这条稀疏长上下文的路径延伸到多模态之后，下一步就看其他玩家如何跟进 GQA 兼容的稀疏实现——这比刷榜本身更重要。