大模型推理成本高企不下,GPU显存成为稀缺资源。Cloudflare近日发布了Unweight——一个无需任何精度损失的LLM权重无损压缩系统,在Llama 3.1 8B上实现约22%的模型体积缩减,相当于节省约3GB VRAM,且GPU内核已开源。 这项技术的核心发现颇为反直觉:BF16浮点数格式中,指数部分的信息熵极低——约2.6比特就能覆盖99%的权重值,而传统上却为其分配了8比特存储空间。Unweight正是抓住了这个冗余:它将每个BF16权重分离为符号+尾数部分和指数部分,对指数采用Huffman编码(基于每个张量16个取值的专属码表),符号和尾数则保持不变。解压时,解码后的指数与原始尾数在芯片上快速重建完整数值,直接送入Tensor Core计算,无需额外的高带宽显存读取。 在部署场景上,Unweight支持多种执行管线:完全解码后调用cuBLAS、边解码边矩阵乘法的融合计算,以及批次相关的自动调优选择最优路径。针对不同大小的批次和权重形状,系统通过坐标下降法自动搜索最优执行策略。值得注意的是,该方案当前在吞吐量上仍有30-40%的损耗,但团队认为随着进一步优化,这一差距有望收窄。 更大的意义在于:22%的无损压缩不仅能降低推理时的显存占用,更能显著减少模型分发体积——这对边缘计算和分布式推理场景尤为重要。当HBM内存成本居高不下、算力供给趋紧时,每一点权重冗余的消除都是真实的经济价值。Unweight的开源,也为行业内其他无损压缩方案的探索提供了可参考的工程范本。