GEMQ：全局视角重新定义MoE大模型量化压缩

**研究背景** Mixture-of-Experts大语言模型（MoE-LLM）凭借稀疏激活特性显著降低了计算成本，成为DeepSeek V3、Qwen3.6-Plus等头部模型的主流架构选择。但海量专家参数也带来了严峻的显存压力——一个千亿参数的MoE模型往往需要数百GB显存才能正常运行。如何在不损失模型性能的前提下压缩显存占用，成为产业界和学术界共同关注的焦点。 **技术突破** 新加坡国立大学等机构提出的GEMQ（Global Expert-level Mixed-precision Quantization）方法突破了传统瓶颈。传统混合精度量化仅在单层内局部评估专家重要性，GEMQ则从全局视角构建线性规划模型，量化分析各专家对整体模型性能的影响，实现跨层最优比特分配。同时，研究者设计了全局路由器微调策略，使路由器能够自适应量化后的专家分布，确保路由精度不因压缩而下降。此外，GEMQ将两项技术整合为渐进式量化框架，利用已量化模型指导后续层的量化决策，进一步提升压缩效果。 **实验验证** 在多个主流MoE模型上的测试表明，GEMQ在实现极致压缩的同时，保持了几乎无损的模型性能。这为在资源受限环境下部署超大MoE模型提供了新的技术路径。 **行业影响** 随着长上下文场景成为刚需（128K甚至1M token），KV Cache与模型权重对显存的双重挤压愈发严重。GEMQ代表的全局量化优化思路，不依赖模型架构修改或重新训练，属于即插即用的推理层优化。随着MoE模型从研究走向生产，GEMQ类方法有望成为大模型推理效率提升的标准配置。