Aria发布：全球首款开源多模态原生MoE模型，64K上下文重新定义效率边界

2026年5月，Rhymes AI团队正式发布Aria，这是全球首个开源的多模态原生混合专家（MoE）模型。与过往通过外挂视觉编码器拼接多模态能力的做法不同，Aria从架构设计之初就将视觉理解融入统一的海量Token空间，被视为多模态大模型开源生态的一次重要突破。 Aria总计拥有25.3B参数，但每次推理仅激活3.9B参数——这种稀疏激活机制让MoE架构的效率优势体现得淋漓尽致。相比同参数量级的稠密模型，Aria在保持高质量输出的同时，大幅降低了计算资源和显存占用，在单张A100（80GB）GPU上即可完成bfloat16精度的加载与推理。更值得关注的是其64K Token的多模态上下文窗口。传统多模态模型在处理长视频或大型文档时，往往受限于上下文长度或出现理解断层。Aria通过统一Token空间的设计，让文本、代码、图像和视频共享同一个语义表示体系，有效避免了跨模态信息丢失的问题。从实际评测看，无论是视频理解、文档分析还是多轮对话，Aria在多个基准测试中的表现都稳居开源多模态模型前列。 Aria不仅公开了模型权重，还同步释出了完整的技术报告和微调工具链，支持LoRA和全参数微调，开发者可以在消费级GPU上完成垂直场景的定制训练。这对医疗影像、工业文档理解等特定领域的需求降低门槛。 Aria的出现，回应了一个行业痛点：开源社区在多模态能力上长期落后于闭源模型，尤其是原生多模态——视觉和语言从架构层面深度融合而非简单拼接。Google的Gemini系列、OpenAI的GPT-4V在这点上构建了很高的技术壁垒。Aria以开源姿态首次在架构层面接近这一水准，对整个生态的推动意义不容小觑。不过，稀疏激活带来的路由开销、多模态统一表示的训练成本，都是Rhymes AI后续需要持续优化的方向。