灵晟超算 LX2 用 ARMv9 把生成式压缩模型推到艾级训练:地球观测数据压缩 100-10000 倍

灵晟超算刚以纯 CPU 架构登顶 Top500,Linpack 比第二名 El Capitan 快 22%,HPCG 快 26%,成为首个持续双精度浮点性能突破 2 Exaflops 的 CPU 集群。它所用的 LX2 处理器基于 ARMv9.2,支持 Scalable Matrix Extension(SME)指令集,304 个活跃核心以 1.55 GHz 提供 60.3 TFLOP/s FP64 性能,搭配 8 TB/s 带宽的"高带宽内存"。但更值得关注的是最近挂在 arXiv(2605.08633)的姊妹论文——一个真正把这条 ARMv9 艾级算力用起来的工程:研究团队在上面训练了一个面向地球观测(EO)数据的生成式压缩模型,端到端训练持续 1.54 EFLOP/s、峰值 2.16 EFLOP/s,并通过"历史先验"学习,把卫星图像等 EO 数据的下游任务压缩比推到了 100× 到 10,000×——比传统 PNG/JPEG 或学习型编解码器高出一两个数量级,且恢复质量在分类、变化检测、检索等任务上几乎无损。这件事值得关注的点不在"省存储空间",而在于它改变了对压缩这件事的认知。过去压缩被视为存储/传输工具,数据到达后再解;现在模型直接把压缩变成"任务自适应入口"——解压出来的不是像素,而是任务相关的特征向量。这也意味着,卫星每天 PB 级的原始数据可以更廉价地下沉到边缘端,真正进入"按需重建"时代。把 ARMv9 + SME 推上艾级 AI 训练,本身就是对"GPU = AI"叙事的修正:在低精度矩阵扩展 + 大容量高带宽内存 + 模型-内核协同设计的组合下,CPU 集群已经具备训练大型生成式模型的能力。这对国内摆脱对单一 GPU 算力依赖的意义,远比一两个 benchmark 数字更实质。