Transformer 架构长期主导大模型设计,但其二次方计算复杂度与线性内存开销,在高推理成本面前显得越来越吃力。状态空间模型(SSM)作为替代路线,一直以线性推理效率著称,却在模型质量与状态跟踪任务上与 Transformer 存在差距。Princeton AI Lab 在 ICLR 2026 发布的 Mamba-3,通过三方面核心改进显著缩小了这一差距。 第一,引入更富表达力的 SSM 离散化复现机制,提升模型对长程依赖的建模能力。第二,采用复数值状态更新规则,使状态跟踪更加丰富精准。第三,采用多输入多输出(MIMO)架构,在不增加推理延迟的前提下提升下游任务表现。实验数据显示,在 1.5B 参数规模下,Mamba-3 相比 Gated DeltaNet 平均准确率提升 0.6 个百分点;MIMO 变体进一步提升 1.2 个百分点,总计+1.8pts。同时,Mamba-3 在维持与前代相当困惑度的同时,将状态大小减半,展现了卓越的帕累托前沿优势。 该研究尤其值得注意的在于其推理优先的设计哲学——不仅在理论层面实现线性复杂度,更追求在实际硬件上真正兑现效率。这与近期 SubQ 等稀疏注意力方案形成有趣的呼应,共同指向一个趋势:2026 年的模型架构竞争,已从堆参数转向榨效率。 SSM 路线能否在大模型领域真正与 Transformer 分庭抗礼,Mamba-3 的规模化实验仍是关键一步。但至少在状态跟踪、检索等特定任务上,这条技术路线的潜力已不容忽视。