AllenAI 在 6 月 25 日发布的最新分析中,把自家 7B 参数的 Olmo 3(纯 Transformer)和 Olmo Hybrid 拉到了同一台显微镜下逐 token 比较。研究团队刻意把两个模型的数据、tokenizer 和训练 recipe 对齐到极致,让所有预测差异只能归因于架构本身——这种"控制变量"思路比单纯跑榜更有说服力。 核心结论反直觉:混合架构的优势真实存在,但只在"有意义的 token"上。Olmo Hybrid 在名词、动词、形容词等开放类实词上的 loss 比 Transformer 低约 0.04,在代词指代这种"必须顺着语境读下去"的 token 上同样占优。但这个领先几乎完全消失在一类 token 上:直接从上文原样复制的 token。Transformer 那种"所有 token 互相对一遍"的注意力机制本质上在做"查表",而 RNN 层那种"读一句、压缩一句"的方式恰好不擅长查表,所以混合架构在拷贝任务上让出了优势。另一个 Transformer 反扑的位置是"闭合括号"——研究表明纯 attention 就足以表示括号匹配,hybrid 反而吃亏。 更值得注意的是研究团队提出的 "filtered token loss" 方法。他们用 1B 参数的 transformer、hybrid 和纯 RNN 三组模型做对照,在 WSD 退火检查点上画曲线:实词 loss 上 hybrid 跑赢 transformer,但纯 RNN 因为完全没有 attention 拉不回原句,拷贝能力反而比 transformer 还差。这种细粒度评测可以在 1B 规模就看出架构差异,意味着预训练实验不再需要"训到几十 B 才能区分架构好坏"。 对行业而言,这篇工作的真正价值不在于"hybrid 一定赢"——架构选择依然是开放问题——而在于它给出了一套可复用的对照方法:单一平均 loss 永远只是冰山一角,按 token 类型拆解才是看到架构差异的真正显微镜。