ICML 2026 oral 推荐:CAT-Q 用 512 样本把 1.7B-235B LLM 压成 1.58-bit,训练成本砍掉 10 万倍

Intel 中国 AI 团队放出的 CAT-Q 把 1.58-bit 量化从「千亿 token 训练」直接拉进「512 条样本后训练」时代。arXiv 2606.26650 论文已被 ICML 2026 接收为 Oral,作者来自 Intel China AI 实验室。CAT-Q 瞄准现有 ternary PTQ 必须依赖昂贵 QAT 才能维持精度的痛点,提出两大耦合组件:可学习调制 (LM) 在量化前先用一组可学习因子把权重分布和阈值「预拉」到三值友好的形态,软化三值化 (ST) 用可微过渡函数引导三值化过程稳定收敛。实验里它只用 512 条校准样本就能把 1.7B-8B 主流 LLM 量化到优于 BitNet b1.58 v1/v2 (用 100B token 训练) 的水平,相当于把训练 token 量减少约 10 万倍;更狠的是 14B-235B 模型第一次在 8 张 A100-80GB 上 8-60 小时就能完成三值化,让「一颗 GPU 跑百 B」成为现实。配套工具 BitTern (Apache-2.0) 已经在 GitHub 开源 (IntelChina-AI/BitTern),目标是把 1.58-bit 模型的门槛降到人人都能玩的程度。从行业视角看,CAT-Q 验证了一个长期被低估的事实:极低比特的关键不在「训出新的小模型」,而在「如何把已有大模型用最小成本压下去」。一旦 100K 倍成本下降普及,边缘推理、本地私部署、Agent 长上下文 KV 压缩这些场景都会被重写一遍——而 BitNet 生态的最大护城河,也就是「必须重新训练」这一刻板印象,也被这套 post-training 流水线正式击穿。