MoE(混合专家)架构靠着稀疏激活机制,在保持高性能的同时大幅降低计算成本,但内存墙问题始终困扰着实际部署——推理时虽然只激活部分专家,但所有专家权重必须全部驻留在显存里。TileQ(arXiv:2605.09281)正是在这一痛点上拿出了新方案。该研究提出了一种无需微调的后训练量化(PTQ)方法,核心思路是在专家的输入维度和输出维度上同时共享低秩因子,实现2D平铺结构。与传统低秩量化相比,TileQ 将额外内存占用压缩至原来的十分之一,同时把推理延迟降至约5%——这意味着在同等硬件条件下,MoE模型的吞吐能力可以提升近20倍。论文还配套提出了高效推理技术,将多个低秩专家的计算融合为单次操作,大幅提升硬件利用率。这对于想在消费级GPU上跑大模型的技术团队来说,是实打实的好消息。量化技术正从压缩比优先走向效率与精度兼顾。TileQ的2D平铺思路本质上是打破了低秩近似的纬度限制——从单维度压缩升级到矩阵级别的结构化共享,这是一个值得关注的范式转变。随着MoE模型在开源社区越来越普及,这类部署友好的量化方案将成为推动技术落地的关键力量。