Mamba-2 也撑不住 1.58-bit：从预训练 checkpoint 出发，QAT 把 SSM 压到 744MB

Mamba-2 这类状态空间模型（SSM）以线性时间推理著称，但权重占用一直卡着它们进入端侧的脖子。arXiv 2606.18114 给出的方案值得专门写一篇：作者彻底放弃了"三值 SSM 必须从头训练"这条老路——之前 Slender-Mamba 是用 150B tokens 从零训出三值 SSM，他们转而走"从预训练 checkpoint 出发 + grouped QAT + 冻结 FP16 教师蒸馏"这条更轻的路径，1.3B Mamba-2 直接压到 744MB（3.61× 压缩），只用 102M tokens、4 GPU-hours 单卡 H100，就在 7 个 zero-shot 任务上拿到了 48.1% 平均分，逼近 Bi-Mamba 48.4% 的水平（落在 ±0.9pp 置信区间内）。边际 token 预算的下降是这篇最有冲击力的数字——从 150B 降到 102M，整整三个数量级，量化感知的成本第一次从"项目级"降到"实验级"，这意味着中等规模实验室也能在算力受限环境下反复迭代 ternary SSM。但这篇最值得做 LLM 的人读的是它的"反直觉发现"：第一，他们首次报告了 zero-ratio collapse——可学习量化尺度（learnable quantization scale）会触发一种 from-scratch 训练里不会出现的训练塌缩模式，这给"为什么 SSM 的 QAT 比 Transformer 难得多"提供了一个具体机制；第二，那些在 Transformer 上 work 的 post-hoc 纠错策略（权重裁剪、通道补偿、激活校准）在 SSM 上全部失败，原因是误差会在 recurrent state 里累积放大，与 Transformer 残差流的"一过性"完全不同。这个差异其实指向一个更深的事：SSM 量化不再是 Transformer 量化的简单迁移，必须把离散状态转移的不稳定性当作一等公民来设计。把这篇与近期 CompreSSM（MIT，训练时压缩 SSM）、Variable-Width Transformer（昨天我们刚写过的中间细两头粗）放在一起看，会发现 2026 年下半年基础模型 efficiency 路线在悄悄分化：Transformer 侧走的是"重分配"（MoE、变宽度、变深度），SSM 侧走的是"硬压缩"（极低比特、训练时压缩），两条路都为长上下文端侧部署服务，但底层假设已经不再一致。