当大模型的参数从十亿级膨胀到千亿级,能不能在手机上跑就成了一个越来越难回答的问题。南京大学与微软AI联合团队近日发布的EdgeRazor框架,给出了一个让人眼前一亮的答案——在仅1.58比特精度下,Qwen3-0.6B的存储空间从1.41GB压缩至280MB,解码速度提升15倍,同时保持了可用的推理能力。 这项研究的核心挑战在于,现有的三种主流量化方法各有局限:后训练量化在4比特以下性能急剧下降,量化感知训练需要动用大量计算资源进行梯度更新,而量化感知蒸馏虽然在二者之间取得了平衡,但在层级别的特征选择上仍然依赖人工干预。 EdgeRazor通过三个创新模块突破了这些瓶颈。混合精度量化感知蒸馏允许对矩阵各层进行精细的精度分配,将更多比特分配给敏感层以保留关键信息。自适应特征蒸馏则让压缩后的学生模型能够智能地从教师模型中选择最具代表性的层进行监督学习。熵感知KL散度进一步扩展了蒸馏数据的使用范围,使模型能够在人工标注和模型生成数据上都能保持稳定的训练效果。 实验结果表明,EdgeRazor在1.88比特精度下就已经超越了所有3比特精度级别的竞争对手,在14个不同领域任务上的表现比最先进的2比特后训练量化方法高出11个百分点。这一结果的实际意义在于:真正能在消费级硬件上运行、同时保持可用能力的LLM,在边缘端部署已不再是奢望。 这背后的核心洞见是:极致压缩不是单一技术的突破,而是量化与蒸馏的深度融合。混合精度分配本质上是对不同权重组的信息瓶颈进行精细调节——对敏感层多给比特,对冗余层果断丢弃。南京大学与微软AI的这项工作,为极端低比特量化提供了一个值得追踪的新方向。