Olmo Hybrid 用 token 级 loss 告诉行业：Transformer 和混合架构到底差在哪

AllenAI 在 6 月 25 日发布的最新分析中，把自家 7B 参数的 Olmo 3（纯 Transformer）和 Olmo Hybrid 拉到了同一台显微镜下逐 token 比较。研究团队刻意把两个模型的数据、tokenizer 和训练 recipe 对齐到极致，让所有预测差异只能归因于架构本身——这种"控制变量"思路比单纯跑榜更有说服力。核心结论反直觉：混合架构的优势真实存在，但只在"有意义的 token"上。Olmo Hybrid 在名词、动词、形容词等开放类实词上的 loss 比 Transformer 低约 0.04，在代词指代这种"必须顺着语境读下去"的 token 上同样占优。但这个领先几乎完全消失在一类 token 上：直接从上文原样复制的 token。Transformer 那种"所有 token 互相对一遍"的注意力机制本质上在做"查表"，而 RNN 层那种"读一句、压缩一句"的方式恰好不擅长查表，所以混合架构在拷贝任务上让出了优势。另一个 Transformer 反扑的位置是"闭合括号"——研究表明纯 attention 就足以表示括号匹配，hybrid 反而吃亏。更值得注意的是研究团队提出的 "filtered token loss" 方法。他们用 1B 参数的 transformer、hybrid 和纯 RNN 三组模型做对照，在 WSD 退火检查点上画曲线：实词 loss 上 hybrid 跑赢 transformer，但纯 RNN 因为完全没有 attention 拉不回原句，拷贝能力反而比 transformer 还差。这种细粒度评测可以在 1B 规模就看出架构差异，意味着预训练实验不再需要"训到几十 B 才能区分架构好坏"。对行业而言，这篇工作的真正价值不在于"hybrid 一定赢"——架构选择依然是开放问题——而在于它给出了一套可复用的对照方法：单一平均 loss 永远只是冰山一角，按 token 类型拆解才是看到架构差异的真正显微镜。