6月12日,MiniMax 原生多模态旗舰 M3 正式开源,摩尔线程同日宣布 MTT S5000 完成 M3 的 Day-0 极速适配。从"模型发布"到"国产硬件可跑"只隔不到 24 小时——这件事比任何跑分都更能说明中国 AI 栈正在走向闭环。 M3 的两个关键标签是"原生多模态"和"稀疏注意力打通百万 token 上下文"。前者让 M3 不再是"视觉编码器 + 语言模型"的拼装,而是统一架构;后者把百万级上下文从闭源前沿的演示参数变成开源社区可拉来跑的工作能力。本地化部署 M3 需要能稳定承载长上下文推理的硬件栈,这事过去几乎只有 NVIDIA H 系列 + 特定推理框架能搞定。 MTT S5000 做到 Day-0,关键不在"适配得快",而在于打通了一整条工程链路:驱动层 MUSA、计算层覆盖主流 attention 变体、推理层对接 vLLM/SGLang 等开源框架、再叠上摩尔线程自家 AI 推理套件做优化。这是国产 GPU 第一次在多模态、长上下文、稀疏注意力三个高难度维度同时跑通开源前沿模型。 意义有两层:一是开发者迁移成本被压低,原本锁定特定硬件栈的"硬约束"被"Open Day-0"变成软约束;二是硬件层和模型层开始协同,M3 工程文档、KV Cache 行为几乎为多卡/长上下文场景专门优化,S5000 同步完成适配意味着两边团队节奏已经对齐。S5000 这次 Day-0 适配,价值远不止一张新白皮书。