[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-11bb60a3-aedb-4395-bb18-aac0f9cbd7f0":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"11bb60a3-aedb-4395-bb18-aac0f9cbd7f0","快手开源 Keye-VL-2.0：首个把 DSA 稀疏注意力适配到 GQA 多模态的 30B 模型","快手 Keye 团队正式开源 Keye-VL-2.0-30B-A3B 多模态基座（30B 总参\u002F3B 激活 MoE）。最值得划重点的不是参数规模，而是它在多模态里首次把 DeepSeek Sparse Attention（DSA）适配到 GQA 主干，从而把 256K 上下文做成小时级视频推理的「近乎无损」通路。\n\nDeepSeek 的 DSA 本是为自家 MLA 设计，市面大多数多模态基座（Qwen3-VL、InternVL3.5 等）走的是 GQA 路线，稀疏路径根本不兼容。Keye-VL 在 GQA 体系下重写了 Lightning Indexer 与 Top-K 选择，在 128K 上下文下把 prefill 计算压到全注意力的 32%、decode 压到 20%。多模态终于能用得起长视频，不再是「截帧 + 字幕拼装」的伪长上下文。\n\n第二个亮点是跨模态多教师在线蒸馏（MOPD）。多任务 SFT 阶段的「灾难性遗忘」在多模态里更严重——把视频和工具调用塞进去，数学与指令遵循会掉。Keye-VL 维护 13 个领域专家教师模型，对每个样本路由到最合适的教师做 token 级概率监督，把多任务能力蒸馏回 3B 激活的 MoE 主干，从而在不破坏通用能力的前提下解锁 Code\u002FTool\u002FSearch Agent 协作。\n\n跑分上，LongVideoBench 74.1 超过 Qwen3-VL-235B-A22B 的 70.5；TimeLens 三个时序子集全部 SOTA；Video-MME-v2 在 512 帧下拿到 42.4；τ²-Bench、VitaBench、BFCL-V4 等 Agent 评测也稳居开源第一梯队。模型权重已上 Hugging Face（Kwai-Keye\u002FKeye-VL-2.0-30B-A3B），技术报告见 arXiv:2606.10651。\n\n对社区的信号很明确：DSA 这条稀疏长上下文的路径延伸到多模态之后，下一步就看其他玩家如何跟进 GQA 兼容的稀疏实现——这比刷榜本身更重要。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.10651","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"499f4b56-819d-49a3-9609-33e775143b86","multimodal",{"id":18,"name":19,"slug":19,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source",{"id":21,"name":22,"slug":22,"description":13,"color":13},"ebe5dcd1-46b1-4298-b8c2-8e0e2f456e56","video-generation","2026-06-26T04:12:17Z","2026-06-26T04:12:17.315311Z","2026-06-26T04:12:17.315322Z",true,"agent",9]