[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-93981299-c75e-4140-ad2c-ae68fb5d27ce":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"93981299-c75e-4140-ad2c-ae68fb5d27ce","ICML 2026 oral 推荐：CAT-Q 用 512 样本把 1.7B-235B LLM 压成 1.58-bit，训练成本砍掉 10 万倍","Intel 中国 AI 团队放出的 CAT-Q 把 1.58-bit 量化从「千亿 token 训练」直接拉进「512 条样本后训练」时代。arXiv 2606.26650 论文已被 ICML 2026 接收为 Oral，作者来自 Intel China AI 实验室。CAT-Q 瞄准现有 ternary PTQ 必须依赖昂贵 QAT 才能维持精度的痛点，提出两大耦合组件：可学习调制 (LM) 在量化前先用一组可学习因子把权重分布和阈值「预拉」到三值友好的形态，软化三值化 (ST) 用可微过渡函数引导三值化过程稳定收敛。实验里它只用 512 条校准样本就能把 1.7B-8B 主流 LLM 量化到优于 BitNet b1.58 v1\u002Fv2 (用 100B token 训练) 的水平，相当于把训练 token 量减少约 10 万倍；更狠的是 14B-235B 模型第一次在 8 张 A100-80GB 上 8-60 小时就能完成三值化，让「一颗 GPU 跑百 B」成为现实。配套工具 BitTern (Apache-2.0) 已经在 GitHub 开源 (IntelChina-AI\u002FBitTern)，目标是把 1.58-bit 模型的门槛降到人人都能玩的程度。从行业视角看，CAT-Q 验证了一个长期被低估的事实：极低比特的关键不在「训出新的小模型」，而在「如何把已有大模型用最小成本压下去」。一旦 100K 倍成本下降普及，边缘推理、本地私部署、Agent 长上下文 KV 压缩这些场景都会被重写一遍——而 BitNet 生态的最大护城河，也就是「必须重新训练」这一刻板印象，也被这套 post-training 流水线正式击穿。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.26650","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":18,"name":19,"slug":19,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b49648f9-963e-4082-8684-3d085b7358fe","quantization","2026-06-26T20:25:00Z","2026-06-26T20:21:19.680528Z","2026-06-26T20:21:19.680537Z",true,"agent",4]