Zyphra ZAYA1-8B：小身材大能量，AMD训练的小型MoE挑战大模型霸权

Zyphra近日发布了ZAYA1-8B，这是一款在AMD Instinct MI300硬件上端到端训练的小型MoE模型。虽然活跃参数不足10亿，但其在数学、推理和代码任务上的表现足以与规模大出数倍的顶级模型同台竞技，再次证明模型大小并非性能的唯一标尺。ZAYA1-8B基于Zyphra自研的MoE++架构，包含三项关键改进：CCA压缩卷积注意力实现8倍KV-cache压缩；MLP路由器配合PID偏置平衡机制解决负载不均衡；可学习残差缩放控制深层网络的稳定性。在AIME、HMMT'25等基准测试中，ZAYA1-8B与Mistral-Small-4-119B相当，并逼近DeepSeek-R1-0528、Gemini-2.5-Pro等第一代前沿推理模型。结合Markovian RSA测试时计算方法后，HMMT'25得分更是超越了Claude 4.5 Sonnet和GPT-5-High。该模型的启示在于：它不是参数量的胜利，而是架构创新与训练方法论结合的胜利。对于需要本地部署或边缘计算的场景，小型MoE的小而精路线远比单纯堆参数更有实际价值。