过去一年,「Apple Silicon 跑 LLM」几乎等同于 MLX 与 llama.cpp 两条路线。行业默认:要么走 llama.cpp 的成熟生态,要么走 MLX 借助 unified memory 的 Python 友好设计,剩下的空间似乎已被充分挖掘。basecompute 团队 7 月 1 日挂上 arXiv 的 BaseRT(2607.00501),直接把这个前提翻了个底朝天。 BaseRT 的方法论不复杂、也不取巧:放弃跨平台抽象层,完全在 Metal API 上手写针对 M 系列芯片特性的 kernel fusion、统一内存感知调度、以及一套自定义的 dispatch 路径。换句话说,它把 llama.cpp 跨硬件抽象带来的固定开销、以及 MLX 把 Metal 嵌进 Python 解释器带来的运行时开销,一并烧掉了。 数字上,M3 / M4 Pro 上跑 Qwen3、Llama 3.2、Gemma 4(Q4 / Q8 量化),BaseRT 的 decode 吞吐比 llama.cpp 高 1.56×、比 MLX 高 1.35×。更值得注意的是 MoE 模型的 prefill:架构抽象一旦被吃掉,权重 dispatch 与 expert 路由的固定成本被放大,论文里这部分加速比 decode 还要夸张。它支持 Q2 至 FP16 共 8 种量化格式,覆盖从 sub-1B 到 30B 全谱系模型,代码已在 GitHub 开源(github.com/basecompute/baseRT)。 这件事的意义不只在性能。它直接打掉了一个行业惯性——「M 系列做严肃 LLM 推理只是玩具」。随着隐私要求、延迟约束和云端成本压力把推理推向端侧,端上 LLM 不再是 demo,而是承担生产负载的备选层。BaseRT 用 1.56× 的数字钉死了这个转折点,也意味着接下来一两年,跨平台框架的「硬件抽象税」会被越来越多人重新估量。