Arcee AI 于 4 月初发布了 Trinity Large-Thinking 模型,这是一款拥有 3990 亿参数、采用稀疏 MoE 架构的推理优化模型。在 Arcee 披露的基准测试中,Trinity 以 91.9 分位居 PinchBench 第二名,落后于 Claude Opus 4.6(93.3 分),但在多项关键指标上逼近甚至持平顶级闭源模型。 技术层面,Trinity 采用 4-of-256 的专家路由机制,每次推理仅激活 130 亿参数,配合 128K 上下文窗口,专注于长周期自主 Agent 场景。训练层面,Arcee 在 2048 块 NVIDIA B300 Blackwell GPU 上完成了 33 天的训练,总成本约 2000 万美元。 Trinity 最大的亮点在于性价比:输出 token 定价仅 0.90 美元/百万,而 Claude Opus 4.6 为 25 美元/百万,价差接近 96%。这一数字若经独立验证,将对高推理量的企业用户产生显著吸引力。 但需注意,目前所有基准数据均由 Arcee 官方披露,第三方复现尚未完成。模型的实际推理质量、对抗复杂 Agent 工作流的稳定性,仍有待社区验证。此外,Arcee 仅有 26 人团队,后续维护和版本迭代能力存疑。 从开源生态角度看,Trinity 的 Apache 2.0 许可证规避了 Llama 系列社区许可证的商业限制,是一个真正的开源友好选择。但从绝对性能看,它尚未超越 Meta Llama 4 Scout,在顶级模型竞争中仍有差距。 对开发者而言,Trinity 提供了一个介于顶级闭源与轻量开源之间的中间选项,值得在自有场景中实测对比。后续独立 benchmark 结果将是判断其真实实力的关键。