MiniMax M3发布：稀疏注意力打通百万token上下文，开源模型编程能力逼近闭源前沿

6月1日，MiniMax发布M3大模型，首个将顶级编程能力、百万token上下文窗口与原生多模态三者合一的开源模型。核心突破在于自主研发的MSA（MiniMax Sparse Attention）稀疏注意力机制：传统Transformer注意力为二次复杂度——token翻倍计算量约增四倍，MSA采用KV块选择机制，只对最相关的键值缓存块进行计算，在百万token级别将每token计算量降至原来的1/10，预填充速度提升约9倍，解码速度提升约15倍。在官方基准测试中，M3在SWE-Bench Pro上得分59%，超越GPT-5.5和Gemini 3.1 Pro，逼近Claude Opus 4.7；在BrowseComp自主浏览任务上以83.5分超越Opus 4.7（79.3）。模型支持文本、图像、视频输入，开放权重计划于发布后10天内释出。观点：长上下文和高计算成本长期制约开源模型在真实场景中的表现，MiniMax M3通过稀疏注意力架构为这一痛点提供了新的解决路径。基准数据来自厂商自测，开源权重释放后社区复现将给出更客观的答案。