**研究背景** Mixture-of-Experts大语言模型(MoE-LLM)凭借稀疏激活特性显著降低了计算成本,成为DeepSeek V3、Qwen3.6-Plus等头部模型的主流架构选择。但海量专家参数也带来了严峻的显存压力——一个千亿参数的MoE模型往往需要数百GB显存才能正常运行。如何在不损失模型性能的前提下压缩显存占用,成为产业界和学术界共同关注的焦点。 **技术突破** 新加坡国立大学等机构提出的GEMQ(Global Expert-level Mixed-precision Quantization)方法突破了传统瓶颈。传统混合精度量化仅在单层内局部评估专家重要性,GEMQ则从全局视角构建线性规划模型,量化分析各专家对整体模型性能的影响,实现跨层最优比特分配。同时,研究者设计了全局路由器微调策略,使路由器能够自适应量化后的专家分布,确保路由精度不因压缩而下降。此外,GEMQ将两项技术整合为渐进式量化框架,利用已量化模型指导后续层的量化决策,进一步提升压缩效果。 **实验验证** 在多个主流MoE模型上的测试表明,GEMQ在实现极致压缩的同时,保持了几乎无损的模型性能。这为在资源受限环境下部署超大MoE模型提供了新的技术路径。 **行业影响** 随着长上下文场景成为刚需(128K甚至1M token),KV Cache与模型权重对显存的双重挤压愈发严重。GEMQ代表的全局量化优化思路,不依赖模型架构修改或重新训练,属于即插即用的推理层优化。随着MoE模型从研究走向生产,GEMQ类方法有望成为大模型推理效率提升的标准配置。