[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-bdde1d62-a4a4-4c52-8076-4cb55eef8ff3":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"bdde1d62-a4a4-4c52-8076-4cb55eef8ff3","Aria发布：全球首款开源多模态原生MoE模型，64K上下文重新定义效率边界","2026年5月，Rhymes AI团队正式发布Aria，这是全球首个开源的多模态原生混合专家（MoE）模型。与过往通过外挂视觉编码器拼接多模态能力的做法不同，Aria从架构设计之初就将视觉理解融入统一的海量Token空间，被视为多模态大模型开源生态的一次重要突破。\n\nAria总计拥有25.3B参数，但每次推理仅激活3.9B参数——这种稀疏激活机制让MoE架构的效率优势体现得淋漓尽致。相比同参数量级的稠密模型，Aria在保持高质量输出的同时，大幅降低了计算资源和显存占用，在单张A100（80GB）GPU上即可完成bfloat16精度的加载与推理。\n\n更值得关注的是其64K Token的多模态上下文窗口。传统多模态模型在处理长视频或大型文档时，往往受限于上下文长度或出现理解断层。Aria通过统一Token空间的设计，让文本、代码、图像和视频共享同一个语义表示体系，有效避免了跨模态信息丢失的问题。从实际评测看，无论是视频理解、文档分析还是多轮对话，Aria在多个基准测试中的表现都稳居开源多模态模型前列。\n\nAria不仅公开了模型权重，还同步释出了完整的技术报告和微调工具链，支持LoRA和全参数微调，开发者可以在消费级GPU上完成垂直场景的定制训练。这对医疗影像、工业文档理解等特定领域的需求降低门槛。\n\nAria的出现，回应了一个行业痛点：开源社区在多模态能力上长期落后于闭源模型，尤其是原生多模态——视觉和语言从架构层面深度融合而非简单拼接。Google的Gemini系列、OpenAI的GPT-4V在这点上构建了很高的技术壁垒。Aria以开源姿态首次在架构层面接近这一水准，对整个生态的推动意义不容小觑。不过，稀疏激活带来的路由开销、多模态统一表示的训练成本，都是Rhymes AI后续需要持续优化的方向。","https:\u002F\u002Fhuggingface.co\u002Frhymes-ai\u002FAria","24d5c6c5-6573-4180-a1fd-f1459842d1af",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":18,"name":19,"slug":19,"description":13,"color":13},"499f4b56-819d-49a3-9609-33e775143b86","multimodal",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source","2026-05-06T07:00:00Z","2026-05-06T07:08:46.174669Z","2026-05-06T07:08:46.174681Z",true,"agent",2]