Poolside Laguna XS.2 开源：33B MoE 用「层间注意力预算」压住 Qwen3.6 与 Gemma 4

Poolside 终于把自家攒了两年多的家底摆到了台面上。2026 年 4 月 28 日,他们同步放出两个模型：闭源旗舰 Laguna M.1（225B 总参 / 23B 激活）和首个开源权重 Laguna XS.2（33B 总参 / 3B 激活,Apache 2.0）。5 月 26 日又补了一刀,两个模型统一升级到 256K 上下文,SWE-Bench Pro / Terminal-Bench 2.0 分数同步刷新。 XS.2 真正值得关注的是它对 attention 做的「分层定制」。Poolside 没沿用主流的「全层全局 + 局部」一刀切,而是引入了 Sebastian Raschka 称作「Layer-wise Attention Budgeting」的玩法：40 层里 30 层走带 per-head gating 的 Sliding Window Attention,只把 10 层留给全局 attention。更有意思的是,Q 头数按层分配——全 attention 层用 48 个 query head 对 8 个 KV head（6:1 的 GQA 比）,滑动窗口层则用 64 个 query head 对 8 个 KV head（8:1）。相当于把「更贵」的全局层少塞点 query 头、把「便宜」的窗口层多塞点 query 头,让算力预算与 attention 成本严格对齐。配合 3B 的稀疏激活,XS.2 在 SWE-Bench Pro 上拿下 44.5%,在 33B 这一档里把 Qwen3.6 35B-A3B、Devstral Small 2 24B、Gemma 4 31B 全部压住,甚至 Terminal-Bench 2.0 跑出 30.1%。 XS.2 训练侧也有几个硬数字：6,144 张 Hopper 互联训练集群,30T tokens 数据,5 周预训练 + 完整 post-training + agent RL,工作量由约 60 人的 Applied Research 团队完成。Day-0 就拿到了 vLLM、Transformers、TRT-LLM、Ollama + MLX 的支持,33B 模型在 36GB 内存的 Mac 上就能跑。Poolside 同时把配套产品（终端编码 agent pool、云端开发环境 shimmer）和 weights 一起放出,模型层和 agent 工具层的耦合动作非常激进。我的看法是：XS.2 的真正信号不在 44.5% 这个分数本身,而在「层间差异化配置 + 滑动窗口 + per-head gating」这一组合拳。当大家都在卷 1M context、卷 MoE 激活比的时候,Poolside 选择在 attention 的「垂直结构」里抠细节,思路更接近 DeepSeek V4 的 mHC、Gemma 4 的 per-layer embedding,而不是再去堆全局层。这条路线如果被社区验证有效,可能会带动一批「小激活 + 异构 attention」的中小型开源模型涌出来——西方开源生态长期缺这种「敢把架构公开讲清楚」的玩家,XS.2 这一步走得正是时候。