BaseRT 把 Apple Silicon 推到 LLM 推理性能第一：llama.cpp 1.56× / MLX 1.35×，MoE prefill 红利更夸张

过去一年，「Apple Silicon 跑 LLM」几乎等同于 MLX 与 llama.cpp 两条路线。行业默认：要么走 llama.cpp 的成熟生态，要么走 MLX 借助 unified memory 的 Python 友好设计，剩下的空间似乎已被充分挖掘。basecompute 团队 7 月 1 日挂上 arXiv 的 BaseRT（2607.00501），直接把这个前提翻了个底朝天。 BaseRT 的方法论不复杂、也不取巧：放弃跨平台抽象层，完全在 Metal API 上手写针对 M 系列芯片特性的 kernel fusion、统一内存感知调度、以及一套自定义的 dispatch 路径。换句话说，它把 llama.cpp 跨硬件抽象带来的固定开销、以及 MLX 把 Metal 嵌进 Python 解释器带来的运行时开销，一并烧掉了。数字上，M3 / M4 Pro 上跑 Qwen3、Llama 3.2、Gemma 4（Q4 / Q8 量化），BaseRT 的 decode 吞吐比 llama.cpp 高 1.56×、比 MLX 高 1.35×。更值得注意的是 MoE 模型的 prefill：架构抽象一旦被吃掉，权重 dispatch 与 expert 路由的固定成本被放大，论文里这部分加速比 decode 还要夸张。它支持 Q2 至 FP16 共 8 种量化格式，覆盖从 sub-1B 到 30B 全谱系模型，代码已在 GitHub 开源（github.com/basecompute/baseRT）。这件事的意义不只在性能。它直接打掉了一个行业惯性——「M 系列做严肃 LLM 推理只是玩具」。随着隐私要求、延迟约束和云端成本压力把推理推向端侧，端上 LLM 不再是 demo，而是承担生产负载的备选层。BaseRT 用 1.56× 的数字钉死了这个转折点，也意味着接下来一两年，跨平台框架的「硬件抽象税」会被越来越多人重新估量。