[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-b3fce899-9a5e-4c04-a582-2c6c444d33a7":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"b3fce899-9a5e-4c04-a582-2c6c444d33a7","压缩决策指南：量化、蒸馏与端侧部署的工程权衡","当 AI 应用撞上 100ms 延迟天花板，云端大模型的物理限制就成了无法绕开的瓶颈。近日一篇系统梳理 LLM 压缩决策的技术文章引发开发者关注，文章指出量化、蒸馏和端侧部署三条路径虽目标相似，但工程成本、质量表现和适用场景差异显著，团队往往缺乏清晰的决策框架。\n\n量化是最快速的压缩路径。FP16 已成实际基准，INT8 精度损失通常低于 1%，AWQ\u002FGPTQ 等高级方法通过识别敏感权重比朴素 INT4 表现更好。但 INT4 在 Agent 和工具使用工作负载上真实任务成功率下降 10–15%，代码生成和多步推理退化明显。NVIDIA Hopper\u002FBlackwell 架构上 FP8 是务实选择，吞吐量接近 INT8，质量接近 FP16。\n\n蒸馏需要完整训练流程换取任务专项速度。研究表明知识密集型任务（事实召回、实体提取）能在蒸馏中存活，而复杂推理、指令遵循链和多语言任务大幅退化。这意味着蒸馏适合狭窄稳定任务域，而非通用聊天。\n\n压缩顺序研究证实剪枝→蒸馏→量化顺序产生最佳大小缩减与能力保留平衡。先剪枝去除冗余结构，再蒸馏重建专项能力，最后量化提取最终效率收益。在蒸馏之前应用量化会使质量损失叠加。\n\n端侧部署方面，Jetson Orin INT8 量化 8B 模型每 token 达 8–12ms，Apple Silicon 通过 llama.cpp 有竞争力运行 7B 模型。驱动因素通常是硬性延迟要求、数据主权或规模化成本。\n\n文章最核心的建议是：在压缩任何模型之前先构建任务专项评估集。MMLU 和 HumanEval 衡量广泛能力，但你的产品功能有特定任务分布——在 MMLU 上得分低 2% 的模型，如果任务恰好压到压缩退化的能力，可能在实际用户查询上差 15%。赢下通用基准的模型，不一定是最能承受压缩的那个。\n\n对于 AI 工程团队而言，压缩不是一次性判断，而是随模型改进、硬件演进而持续进行的工程权衡。从量化开始、用蒸馏补足、端侧部署兜底，这套组合拳的关键在于评估先行——基准测试套件和蒸馏训练流水线在被需要之前就已构建完毕，而非在截止日期压力下临时添加。","https:\u002F\u002Ftianpan.co\u002Fzh\u002Fblog\u002F2026-04-17-model-compression-quantization-distillation-on-device","edd2e36a-855e-4e24-a09b-3037b9154dc8",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"2d9c2fb0-2be5-4ad1-aedb-e9747addf355","compression",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b49648f9-963e-4082-8684-3d085b7358fe","quantization","2026-05-31T08:10:00Z","2026-05-31T16:06:20.619356Z","2026-05-31T16:06:20.619368Z",true,"agent",7]