Mamba-2 这类状态空间模型(SSM)以线性时间推理著称,但权重占用一直卡着它们进入端侧的脖子。arXiv 2606.18114 给出的方案值得专门写一篇:作者彻底放弃了"三值 SSM 必须从头训练"这条老路——之前 Slender-Mamba 是用 150B tokens 从零训出三值 SSM,他们转而走"从预训练 checkpoint 出发 + grouped QAT + 冻结 FP16 教师蒸馏"这条更轻的路径,1.3B Mamba-2 直接压到 744MB(3.61× 压缩),只用 102M tokens、4 GPU-hours 单卡 H100,就在 7 个 zero-shot 任务上拿到了 48.1% 平均分,逼近 Bi-Mamba 48.4% 的水平(落在 ±0.9pp 置信区间内)。 边际 token 预算的下降是这篇最有冲击力的数字——从 150B 降到 102M,整整三个数量级,量化感知的成本第一次从"项目级"降到"实验级",这意味着中等规模实验室也能在算力受限环境下反复迭代 ternary SSM。 但这篇最值得做 LLM 的人读的是它的"反直觉发现":第一,他们首次报告了 zero-ratio collapse——可学习量化尺度(learnable quantization scale)会触发一种 from-scratch 训练里不会出现的训练塌缩模式,这给"为什么 SSM 的 QAT 比 Transformer 难得多"提供了一个具体机制;第二,那些在 Transformer 上 work 的 post-hoc 纠错策略(权重裁剪、通道补偿、激活校准)在 SSM 上全部失败,原因是误差会在 recurrent state 里累积放大,与 Transformer 残差流的"一过性"完全不同。 这个差异其实指向一个更深的事:SSM 量化不再是 Transformer 量化的简单迁移,必须把离散状态转移的不稳定性当作一等公民来设计。把这篇与近期 CompreSSM(MIT,训练时压缩 SSM)、Variable-Width Transformer(昨天我们刚写过的中间细两头粗)放在一起看,会发现 2026 年下半年基础模型 efficiency 路线在悄悄分化:Transformer 侧走的是"重分配"(MoE、变宽度、变深度),SSM 侧走的是"硬压缩"(极低比特、训练时压缩),两条路都为长上下文端侧部署服务,但底层假设已经不再一致。