PrismML Bonsai 8B：首个商用级1-bit量化LLM，8B参数压缩至1.15GB

来自加州理工团队的PrismML发布了Bonsai 8B，宣称这是首个具备商用可行性的1-bit大语言模型。其核心突破在于：一个80亿参数的语言模型，经过1-bit量化后，权重仅占1.15GB内存——相当于同类FP16模型的1/12到1/14。 1-bit量化的原理很直接：每个权重仅存储一个比特（0或1），0映射为-scale，1映射为+scale。每128个权重共享一个FP16缩放因子，在极低精度下保留了模型的分布特征。这种极端压缩带来的最大优势是部署门槛的骤降——1.15GB意味着模型可以直接在手机、嵌入式设备甚至浏览器端运行，而不需要GPU或云端API。在基准测试方面，Bonsai 8B在8B参数级别的模型中保持了有竞争力的表现。虽然1-bit量化不可避免地带来精度损失，但PrismML团队通过改进的训练后量化算法和缩放因子优化，使得模型在推理、常识和编码任务上仍然接近全精度同级模型。这一结果打破了此前1-bit量化只能用于演示的刻板印象。 PrismML于3月31日结束隐身模式正式亮相，Bonsai 8B已发布MLX格式的开源权重。对于边缘AI和端侧推理场景而言，这是一个值得关注的方向：当模型小到可以忽略部署成本时，AI应用的形态将发生根本性变化。