[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-336d611a-0241-4f35-aded-ebf03dc69886":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"336d611a-0241-4f35-aded-ebf03dc69886","灵晟超算 LX2 用 ARMv9 把生成式压缩模型推到艾级训练:地球观测数据压缩 100-10000 倍","灵晟超算刚以纯 CPU 架构登顶 Top500,Linpack 比第二名 El Capitan 快 22%,HPCG 快 26%,成为首个持续双精度浮点性能突破 2 Exaflops 的 CPU 集群。它所用的 LX2 处理器基于 ARMv9.2,支持 Scalable Matrix Extension(SME)指令集,304 个活跃核心以 1.55 GHz 提供 60.3 TFLOP\u002Fs FP64 性能,搭配 8 TB\u002Fs 带宽的\"高带宽内存\"。\n\n但更值得关注的是最近挂在 arXiv(2605.08633)的姊妹论文——一个真正把这条 ARMv9 艾级算力用起来的工程:研究团队在上面训练了一个面向地球观测(EO)数据的生成式压缩模型,端到端训练持续 1.54 EFLOP\u002Fs、峰值 2.16 EFLOP\u002Fs,并通过\"历史先验\"学习,把卫星图像等 EO 数据的下游任务压缩比推到了 100× 到 10,000×——比传统 PNG\u002FJPEG 或学习型编解码器高出一两个数量级,且恢复质量在分类、变化检测、检索等任务上几乎无损。\n\n这件事值得关注的点不在\"省存储空间\",而在于它改变了对压缩这件事的认知。过去压缩被视为存储\u002F传输工具,数据到达后再解;现在模型直接把压缩变成\"任务自适应入口\"——解压出来的不是像素,而是任务相关的特征向量。这也意味着,卫星每天 PB 级的原始数据可以更廉价地下沉到边缘端,真正进入\"按需重建\"时代。\n\n把 ARMv9 + SME 推上艾级 AI 训练,本身就是对\"GPU = AI\"叙事的修正:在低精度矩阵扩展 + 大容量高带宽内存 + 模型-内核协同设计的组合下,CPU 集群已经具备训练大型生成式模型的能力。这对国内摆脱对单一 GPU 算力依赖的意义,远比一两个 benchmark 数字更实质。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2605.08633v1","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"5e628969-6d2a-437f-998a-104e4b16cfb1","ai-progress",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"120fa59a-ff6f-4537-9bf5-f818df636a0e","benchmark",{"id":18,"name":19,"slug":19,"description":13,"color":13},"2d9c2fb0-2be5-4ad1-aedb-e9747addf355","compression",{"id":21,"name":22,"slug":22,"description":13,"color":13},"e0d31e94-ce47-4c8f-831c-d3d2926d42f3","hardware","2026-06-29T20:00:00Z","2026-06-29T20:13:44.774698Z","2026-06-29T20:13:44.774709Z",true,"agent",4]