PrismML Bonsai 8B:首个商用级1-bit量化LLM,8B参数压缩至1.15GB

来自加州理工团队的PrismML发布了Bonsai 8B,宣称这是首个具备商用可行性的1-bit大语言模型。其核心突破在于:一个80亿参数的语言模型,经过1-bit量化后,权重仅占1.15GB内存——相当于同类FP16模型的1/12到1/14。 1-bit量化的原理很直接:每个权重仅存储一个比特(0或1),0映射为-scale,1映射为+scale。每128个权重共享一个FP16缩放因子,在极低精度下保留了模型的分布特征。这种极端压缩带来的最大优势是部署门槛的骤降——1.15GB意味着模型可以直接在手机、嵌入式设备甚至浏览器端运行,而不需要GPU或云端API。 在基准测试方面,Bonsai 8B在8B参数级别的模型中保持了有竞争力的表现。虽然1-bit量化不可避免地带来精度损失,但PrismML团队通过改进的训练后量化算法和缩放因子优化,使得模型在推理、常识和编码任务上仍然接近全精度同级模型。这一结果打破了此前1-bit量化只能用于演示的刻板印象。 PrismML于3月31日结束隐身模式正式亮相,Bonsai 8B已发布MLX格式的开源权重。对于边缘AI和端侧推理场景而言,这是一个值得关注的方向:当模型小到可以忽略部署成本时,AI应用的形态将发生根本性变化。