6月1日,MiniMax发布M3大模型,首个将顶级编程能力、百万token上下文窗口与原生多模态三者合一的开源模型。核心突破在于自主研发的MSA(MiniMax Sparse Attention)稀疏注意力机制:传统Transformer注意力为二次复杂度——token翻倍计算量约增四倍,MSA采用KV块选择机制,只对最相关的键值缓存块进行计算,在百万token级别将每token计算量降至原来的1/10,预填充速度提升约9倍,解码速度提升约15倍。 在官方基准测试中,M3在SWE-Bench Pro上得分59%,超越GPT-5.5和Gemini 3.1 Pro,逼近Claude Opus 4.7;在BrowseComp自主浏览任务上以83.5分超越Opus 4.7(79.3)。模型支持文本、图像、视频输入,开放权重计划于发布后10天内释出。 观点:长上下文和高计算成本长期制约开源模型在真实场景中的表现,MiniMax M3通过稀疏注意力架构为这一痛点提供了新的解决路径。基准数据来自厂商自测,开源权重释放后社区复现将给出更客观的答案。