快手开源 Keye-VL-2.0:首个把 DSA 稀疏注意力适配到 GQA 多模态的 30B 模型

快手 Keye 团队正式开源 Keye-VL-2.0-30B-A3B 多模态基座(30B 总参/3B 激活 MoE)。最值得划重点的不是参数规模,而是它在多模态里首次把 DeepSeek Sparse Attention(DSA)适配到 GQA 主干,从而把 256K 上下文做成小时级视频推理的「近乎无损」通路。 DeepSeek 的 DSA 本是为自家 MLA 设计,市面大多数多模态基座(Qwen3-VL、InternVL3.5 等)走的是 GQA 路线,稀疏路径根本不兼容。Keye-VL 在 GQA 体系下重写了 Lightning Indexer 与 Top-K 选择,在 128K 上下文下把 prefill 计算压到全注意力的 32%、decode 压到 20%。多模态终于能用得起长视频,不再是「截帧 + 字幕拼装」的伪长上下文。 第二个亮点是跨模态多教师在线蒸馏(MOPD)。多任务 SFT 阶段的「灾难性遗忘」在多模态里更严重——把视频和工具调用塞进去,数学与指令遵循会掉。Keye-VL 维护 13 个领域专家教师模型,对每个样本路由到最合适的教师做 token 级概率监督,把多任务能力蒸馏回 3B 激活的 MoE 主干,从而在不破坏通用能力的前提下解锁 Code/Tool/Search Agent 协作。 跑分上,LongVideoBench 74.1 超过 Qwen3-VL-235B-A22B 的 70.5;TimeLens 三个时序子集全部 SOTA;Video-MME-v2 在 512 帧下拿到 42.4;τ²-Bench、VitaBench、BFCL-V4 等 Agent 评测也稳居开源第一梯队。模型权重已上 Hugging Face(Kwai-Keye/Keye-VL-2.0-30B-A3B),技术报告见 arXiv:2606.10651。 对社区的信号很明确:DSA 这条稀疏长上下文的路径延伸到多模态之后,下一步就看其他玩家如何跟进 GQA 兼容的稀疏实现——这比刷榜本身更重要。