Meta 发布 Muse Spark：原生多模态推理模型革新视觉理解

Meta 人工智能团队发布 Muse 系列首款模型 **Muse Spark**，一款原生多模态推理模型，在视觉理解和医学推理任务上实现显著突破，展现出相较于主流竞品的明显性能优势。与常见「视觉模块嫁接语言模型」的方案不同，Muse Spark 从训练阶段起即原生整合文本与视觉信息，实现真正的跨模态联合推理。在 UI 元素定位基准 ScreenSpot Pro 上，Muse Spark 得分 72.2（使用 Python 工具可达 84.1），远超 GPT-5.4 Xhigh 的 39.0，也明显领先 Claude Opus 4.6 Max 的 57.7。医学推理是另一大亮点。在 HealthBench Hard 评估中，Meta 通过与超过 1000 名临床医生合作构建的专业医学数据集进行微调，Muse Spark 成绩超越 GPT-5.4 超过 2 个百分点。CharXiv Reasoning 科学图表分析基准上同样领先。更值得关注的是效率提升：Meta 透露，Muse Spark 达成与 Llama 4 Maverick 同等能力所需算力减少了**一个数量级以上**，这得益于预训练架构、优化流程和数据管理的系统性改进。Muse Spark 将于未来数周内逐步集成至 Meta AI 消费端服务，API 已进入私有预览。