Zyphra ZAYA1-8B:小身材大能量,AMD训练的小型MoE挑战大模型霸权

Zyphra近日发布了ZAYA1-8B,这是一款在AMD Instinct MI300硬件上端到端训练的小型MoE模型。虽然活跃参数不足10亿,但其在数学、推理和代码任务上的表现足以与规模大出数倍的顶级模型同台竞技,再次证明模型大小并非性能的唯一标尺。ZAYA1-8B基于Zyphra自研的MoE++架构,包含三项关键改进:CCA压缩卷积注意力实现8倍KV-cache压缩;MLP路由器配合PID偏置平衡机制解决负载不均衡;可学习残差缩放控制深层网络的稳定性。在AIME、HMMT'25等基准测试中,ZAYA1-8B与Mistral-Small-4-119B相当,并逼近DeepSeek-R1-0528、Gemini-2.5-Pro等第一代前沿推理模型。结合Markovian RSA测试时计算方法后,HMMT'25得分更是超越了Claude 4.5 Sonnet和GPT-5-High。该模型的启示在于:它不是参数量的胜利,而是架构创新与训练方法论结合的胜利。对于需要本地部署或边缘计算的场景,小型MoE的小而精路线远比单纯堆参数更有实际价值。