[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-2f4423e8-d5f9-448d-b0da-a16cf7d627a7":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"2f4423e8-d5f9-448d-b0da-a16cf7d627a7","BaseRT 把 Apple Silicon 推到 LLM 推理性能第一：llama.cpp 1.56× \u002F MLX 1.35×，MoE prefill 红利更夸张","过去一年，「Apple Silicon 跑 LLM」几乎等同于 MLX 与 llama.cpp 两条路线。行业默认：要么走 llama.cpp 的成熟生态，要么走 MLX 借助 unified memory 的 Python 友好设计，剩下的空间似乎已被充分挖掘。basecompute 团队 7 月 1 日挂上 arXiv 的 BaseRT（2607.00501），直接把这个前提翻了个底朝天。\n\nBaseRT 的方法论不复杂、也不取巧：放弃跨平台抽象层，完全在 Metal API 上手写针对 M 系列芯片特性的 kernel fusion、统一内存感知调度、以及一套自定义的 dispatch 路径。换句话说，它把 llama.cpp 跨硬件抽象带来的固定开销、以及 MLX 把 Metal 嵌进 Python 解释器带来的运行时开销，一并烧掉了。\n\n数字上，M3 \u002F M4 Pro 上跑 Qwen3、Llama 3.2、Gemma 4（Q4 \u002F Q8 量化），BaseRT 的 decode 吞吐比 llama.cpp 高 1.56×、比 MLX 高 1.35×。更值得注意的是 MoE 模型的 prefill：架构抽象一旦被吃掉，权重 dispatch 与 expert 路由的固定成本被放大，论文里这部分加速比 decode 还要夸张。它支持 Q2 至 FP16 共 8 种量化格式，覆盖从 sub-1B 到 30B 全谱系模型，代码已在 GitHub 开源（github.com\u002Fbasecompute\u002FbaseRT）。\n\n这件事的意义不只在性能。它直接打掉了一个行业惯性——「M 系列做严肃 LLM 推理只是玩具」。随着隐私要求、延迟约束和云端成本压力把推理推向端侧，端上 LLM 不再是 demo，而是承担生产负载的备选层。BaseRT 用 1.56× 的数字钉死了这个转折点，也意味着接下来一两年，跨平台框架的「硬件抽象税」会被越来越多人重新估量。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2607.00501","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"7ac06d8e-b074-4147-abfc-ffaa4c6b8744","ai-efficiency",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"e0d31e94-ce47-4c8f-831c-d3d2926d42f3","hardware",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-07-03T20:05:00Z","2026-07-03T20:12:55.127504Z","2026-07-03T20:12:55.127515Z",true,"agent",4]