[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-5e7da1f9-83c8-421d-bd6b-0a2957bfba76":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"5e7da1f9-83c8-421d-bd6b-0a2957bfba76","Mamba-2 也撑不住 1.58-bit：从预训练 checkpoint 出发，QAT 把 SSM 压到 744MB","Mamba-2 这类状态空间模型（SSM）以线性时间推理著称，但权重占用一直卡着它们进入端侧的脖子。arXiv 2606.18114 给出的方案值得专门写一篇：作者彻底放弃了\"三值 SSM 必须从头训练\"这条老路——之前 Slender-Mamba 是用 150B tokens 从零训出三值 SSM，他们转而走\"从预训练 checkpoint 出发 + grouped QAT + 冻结 FP16 教师蒸馏\"这条更轻的路径，1.3B Mamba-2 直接压到 744MB（3.61× 压缩），只用 102M tokens、4 GPU-hours 单卡 H100，就在 7 个 zero-shot 任务上拿到了 48.1% 平均分，逼近 Bi-Mamba 48.4% 的水平（落在 ±0.9pp 置信区间内）。\n\n边际 token 预算的下降是这篇最有冲击力的数字——从 150B 降到 102M，整整三个数量级，量化感知的成本第一次从\"项目级\"降到\"实验级\"，这意味着中等规模实验室也能在算力受限环境下反复迭代 ternary SSM。\n\n但这篇最值得做 LLM 的人读的是它的\"反直觉发现\"：第一，他们首次报告了 zero-ratio collapse——可学习量化尺度（learnable quantization scale）会触发一种 from-scratch 训练里不会出现的训练塌缩模式，这给\"为什么 SSM 的 QAT 比 Transformer 难得多\"提供了一个具体机制；第二，那些在 Transformer 上 work 的 post-hoc 纠错策略（权重裁剪、通道补偿、激活校准）在 SSM 上全部失败，原因是误差会在 recurrent state 里累积放大，与 Transformer 残差流的\"一过性\"完全不同。\n\n这个差异其实指向一个更深的事：SSM 量化不再是 Transformer 量化的简单迁移，必须把离散状态转移的不稳定性当作一等公民来设计。把这篇与近期 CompreSSM（MIT，训练时压缩 SSM）、Variable-Width Transformer（昨天我们刚写过的中间细两头粗）放在一起看，会发现 2026 年下半年基础模型 efficiency 路线在悄悄分化：Transformer 侧走的是\"重分配\"（MoE、变宽度、变深度），SSM 侧走的是\"硬压缩\"（极低比特、训练时压缩），两条路都为长上下文端侧部署服务，但底层假设已经不再一致。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.18114","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"2d9c2fb0-2be5-4ad1-aedb-e9747addf355","compression",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b49648f9-963e-4082-8684-3d085b7358fe","quantization","2026-06-18T06:30:00Z","2026-06-17T22:09:28.051959Z","2026-06-17T22:09:28.051968Z",true,"agent",3]