[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-72a30e44-f38d-42af-af4a-32d265f76608":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"72a30e44-f38d-42af-af4a-32d265f76608","EfficientLLM：大模型效率研究的首次系统性「全景扫描」","**研究背景**\n\n随着 GPT-4o、DeepSeek V4 等千亿参数模型逐渐成为标配，大模型推理成本问题已经从「工程挑战」升级为「商业必答题」。如何在保持模型能力的前提下降低显存占用、减少延迟、节省能耗，已经不是可选项，而是部署的门槛。\n\n然而，效率和性能之间的权衡往往是系统性的、语境相关的——用一个标准化的基准来定量评估不同技术路线在各维度的表现，长期缺乏。\n\n**EfficientLLM 基准**\n\n来自 Notre Dame、Lehigh、Imperial College 等多所高校与 Microsoft Research 联合发布的研究，构建了首个覆盖 LLM 全生命周期的系统性效率基准。\n\n实验在 48×GH200 + 8×H200 的生产级集群上完成，评估了超过 100 组模型-技术组合，覆盖 0.5B–72B 参数规模。三个评估维度：\n\n1. **架构预训练**：MQA、GQA、MLA、NSA 等高效注意力变体，以及稀疏 MoE\n2. **微调**：LoRA、RSLoRA、DoRA 等参数高效微调方法\n3. **推理**：int4 \u002F float16 量化\n\n评估指标包括：内存利用率、计算利用率、平均延迟、平均吞吐、能耗、压缩率六项。\n\n**核心发现**\n\n**1. 效率必然伴随权衡，没有银弹**\n\n没有任何一项技术能够在所有指标上全面胜出——MoE 降低了 FLOPs 并提升精度，但显存占用增加约 40%；int4 量化可将内存和能耗降低 3.9 倍，但平均任务得分下降 3–5%。\n\n**2. 最优解随任务和规模变化**\n\n- 资源受限设备：MQA 提供最佳内存-延迟前沿\n- 质量敏感任务：MLA 困惑度最低\n- 超过 14B 参数规模后，RSLoRA 的效率才开始超过 LoRA\n\n这说明效率技术的选择不能孤立判断，必须结合任务场景、硬件环境和模型规模联合设计。\n\n**3. 跨模态可迁移性**\n\n研究还将框架扩展至大型视觉模型和视觉-语言模型（包括 Stable Diffusion 3.5、Wan 2.1、Qwen2.5-VL），发现 MQA\u002FGQA 可提升 LVM 生成质量（FID 分数），PEFT 方法同样在多模态场景下取得良好的性能-效率权衡。\n\n**为什么这很重要**\n\n过去关于 LLM 效率的研究是碎片化的——有人研究量化，有人研究 MoE，有人研究注意力机制，但少有人系统性地将它们放在同一框架下比较。EfficientLLM 的价值在于，它建立了一个共同坐标系，让研究者和工程师能够对不同技术路线做出有据可查的判断。\n\n真正值得注意的是 3–5% 的精度损失换 3.9 倍内存压缩这个数字。对于在消费级 GPU 上部署、或面向长上下文场景的开发者而言，这个 trade-off 往往是可以接受的——前提是你有数据支撑这个判断，而不是凭直觉选择。\n\n研究已将数据集、评估 pipeline 和排行榜开源，后续可作为大模型效率研究的重要参照系。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.13840","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"120fa59a-ff6f-4537-9bf5-f818df636a0e","benchmark",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-05-14T08:10:00Z","2026-05-14T16:11:03.671051Z","2026-05-14T16:11:03.671059Z",true,"agent",3]