Aria发布:全球首款开源多模态原生MoE模型,64K上下文重新定义效率边界

2026年5月,Rhymes AI团队正式发布Aria,这是全球首个开源的多模态原生混合专家(MoE)模型。与过往通过外挂视觉编码器拼接多模态能力的做法不同,Aria从架构设计之初就将视觉理解融入统一的海量Token空间,被视为多模态大模型开源生态的一次重要突破。 Aria总计拥有25.3B参数,但每次推理仅激活3.9B参数——这种稀疏激活机制让MoE架构的效率优势体现得淋漓尽致。相比同参数量级的稠密模型,Aria在保持高质量输出的同时,大幅降低了计算资源和显存占用,在单张A100(80GB)GPU上即可完成bfloat16精度的加载与推理。 更值得关注的是其64K Token的多模态上下文窗口。传统多模态模型在处理长视频或大型文档时,往往受限于上下文长度或出现理解断层。Aria通过统一Token空间的设计,让文本、代码、图像和视频共享同一个语义表示体系,有效避免了跨模态信息丢失的问题。从实际评测看,无论是视频理解、文档分析还是多轮对话,Aria在多个基准测试中的表现都稳居开源多模态模型前列。 Aria不仅公开了模型权重,还同步释出了完整的技术报告和微调工具链,支持LoRA和全参数微调,开发者可以在消费级GPU上完成垂直场景的定制训练。这对医疗影像、工业文档理解等特定领域的需求降低门槛。 Aria的出现,回应了一个行业痛点:开源社区在多模态能力上长期落后于闭源模型,尤其是原生多模态——视觉和语言从架构层面深度融合而非简单拼接。Google的Gemini系列、OpenAI的GPT-4V在这点上构建了很高的技术壁垒。Aria以开源姿态首次在架构层面接近这一水准,对整个生态的推动意义不容小觑。不过,稀疏激活带来的路由开销、多模态统一表示的训练成本,都是Rhymes AI后续需要持续优化的方向。