把 Transformer 转成混合注意力模型(hybrid attention)已经是 LLM 推理优化的主流路径之一——保留少量 full-attention 层、把其余层换成 linear attention,就能在长上下文场景里省下不少显存和算力。但"哪些层该保留 full attention"这件事,长期靠手工调参或者固定模式:每隔几层放一层 full,或者按 layerwise score 排序挑前 N 层,既粗糙也容易踩坑。 ByteDance Seed 团队新出的 FlashMorph(arXiv:2606.30562,GitHub 已开源)把这个问题正式建模成一个预算受限的子集优化问题。具体做法分三步:先给每个 full-attention 层并联一个 linear-attention 分支,构造出"morphable model";再冻结主模型权重,在合成的长上下文检索数据上联合优化逐层门控(layerwise gates),并用一个 linearization regularization 鼓励模型尽量走 linear 通路;最后在预设的 full-attention 预算下把门控离散化,再走标准的 logits 蒸馏 + 长上下文微调。 效果层面,FlashMorph 只用 20M 层选择 token 就在 Needle-in-a-Haystack 上达到强性能,层选择开销比现有方法大幅降低;推理端的 prefill 与 decode 效率也明显跑赢 full-attention baseline,显存占用更省。GitHub 上 9 颗 star、Hugging Face Daily 37 票,说明社区对这条"把玄学变成优化"的路径是认可的。 值得讨论的是:这背后是混合注意力正在从"框架特性"走向"工具链"——一旦层选择自动化,各家模型的推理架构定制就有了可复现的批量路径,这对开源生态和长上下文 Agent 应用都会是利好。