UFP4 把 FP4 训练"翻"过来：蚂蚁百灵给 E2M1 "缩水偏差"开系统药方

蚂蚁百灵 Ling 团队 6 月 18 日挂出 arXiv 2606.20381，对当前 FP4 训练主流路径"开炮"：E2M1 数据格式从基因里就带着"缩水偏差"（Shrinkage Bias）——表示位几何不对称，RTNE 量化后系统性把数值往下"拉"，负偏差沿层数乘性累积，又被 RHT 这类抗离群点技巧进一步放大；E2M1 + RHT 这套"工业最佳实践"反而成了训练不稳定的推手。解药是 UFP4：把网格换成均匀的 E1M2/INT4 绕过几何偏差；RHT 套到前向 y、反向 dx、反向 dw 三个训练 GEMM，随机舍入只留给 dY。在 Dense 1.5B、MoE 7.9B、MoE 124B 三种尺度的长程预训练里，UFP4 相对 E2M1 基线在 BF16 相对损失上一致下降，并经 scaling-law 与融合 kernel 基准验证。论文喊话硬件厂：下一代加速器应把 E1M2/INT4 风格的均匀 4-bit 网格当一等公民。NVIDIA Blackwell / Rubin 与 AMD MI350 这代围绕 E2M1 建的软件栈，可能要为"几何偏差"持续付出代价。