SharQ 用「稀疏-稠密双轨」把 FP4 推理提速 2.4 倍:训练免费还跨平台

推理优化圈的硬骨头之一:低精度量化与结构化稀疏往往互相撕咬。激活里的 input-dependent 离群点会吞掉 FP4 的 block scale,而粗暴套 N:M mask 又把可恢复的中等值丢光——两路损失耦合,「两块金矿」一直没法一起挖。 arXiv:2606.26587 提出的 SharQ 给出训练免费的解法:对每张激活张量先抽出 input-adaptive N:M mask 里的离群值组成 sparse backbone 走 FP4 量化;dense 残差不是相对原始 sparse 值,而是相对「已被 FP4 量化的 sparse 值」计算,把 mask 损失与 sparse 路径量化误差一起丢进 dense FP4 GEMM 补回。两条路径共用同一份权重,通过 path-specific scale view 切换角色——一份权重双跑,显存不翻倍。工程门槛几乎为零:零校准、零重训、零 per-model tuning。Llama-3.1-8B、Qwen2.5-7B、Qwen3-30B-A3B、Qwen3-VL-8B 上恢复 NVFP4→FP16 43-63% 的精度缺口;RTX 5090 上相对 FP16 端到端提速 2.2-2.4 倍,相对 FP8 吞吐再升 1.2-1.4 倍;配 SageAttention 还能让 Wan2.2-T2V-A14B 视频生成拿到 1.58 倍加速——多模态推理同样受益,并横跨 NVFP4、HiF4、MXFP4 三种硬件格式。 SharQ 的真正杠杆不在某个百分数,而是把「稀疏一定掉精度、量化一定难融合」的旧共识翻了过来。这套配方大概率会被 vLLM、SGLang 等服务框架快速收编。代码已开源在 github.com/actypedef/SharQ,其 fused preparation kernel 把 mask 生成、残差构造、LayerNorm 合并成单算子,才是论文工作能挤进生产延迟预算的关键。