蚂蚁百灵 Ling 团队 6 月 18 日挂出 arXiv 2606.20381,对当前 FP4 训练主流路径"开炮":E2M1 数据格式从基因里就带着"缩水偏差"(Shrinkage Bias)——表示位几何不对称,RTNE 量化后系统性把数值往下"拉",负偏差沿层数乘性累积,又被 RHT 这类抗离群点技巧进一步放大;E2M1 + RHT 这套"工业最佳实践"反而成了训练不稳定的推手。解药是 UFP4:把网格换成均匀的 E1M2/INT4 绕过几何偏差;RHT 套到前向 y、反向 dx、反向 dw 三个训练 GEMM,随机舍入只留给 dY。在 Dense 1.5B、MoE 7.9B、MoE 124B 三种尺度的长程预训练里,UFP4 相对 E2M1 基线在 BF16 相对损失上一致下降,并经 scaling-law 与融合 kernel 基准验证。论文喊话硬件厂:下一代加速器应把 E1M2/INT4 风格的均匀 4-bit 网格当一等公民。NVIDIA Blackwell / Rubin 与 AMD MI350 这代围绕 E2M1 建的软件栈,可能要为"几何偏差"持续付出代价。