Ollama 0.19 集成 MLX 后端,Apple Silicon 本地推理速度翻倍

Ollama 0.19 正式预览 MLX 后端支持,这是本地 AI 推理领域的一个重要里程碑。此前 Ollama 在 Apple Silicon 上主要依赖 llama.cpp 的 Metal 实现,而切换到 Apple 自家的 MLX 框架后,充分利用了统一内存架构的优势,实现了显著的性能提升。 实测数据令人印象深刻:在 M5 芯片上,使用 Qwen3.5-35B-A3B 模型,预填充速度达到 1810 token/s,解码速度 112 token/s(NVFP4 量化)。如果使用 int4 量化,预填充进一步提升至 1851 token/s,解码 134 token/s。相比此前基于 llama.cpp Q4_K_M 的实现,整体速度提升接近 2 倍。值得注意的是,M5 系列新增的 GPU Neural Accelerators 为首 token 延迟和生成速度带来了额外加成。 除了后端切换,本次更新还引入了 NVIDIA 的 NVFP4 量化格式。NVFP4 不仅降低了内存带宽和存储需求,更重要的是让本地推理结果与生产环境保持一致——越来越多的云端推理服务正在采用这一格式。同时 Ollama 的缓存机制也得到改进:跨对话复用缓存降低内存占用,智能检查点减少重复处理,共享前缀的驱逐策略更合理,这对 Claude Code、OpenClaw 等 coding agent 场景尤为有利。 目前 MLX 后端仍处于预览阶段,首发的优化模型是 Qwen3.5-35B-A3B,需要 32GB 以上统一内存的 Mac。后续将扩展支持更多架构,并引入更便捷的自定义模型导入方式。 从行业角度看,Ollama 选择 MLX 而非继续优化 llama.cpp Metal 后端,意味着 Apple Silicon 的本地推理生态正在分化。MLX 的统一内存调度能力天然适合大模型场景,再加上 NVIDIA 在 NVFP4 和 MLX CUDA 支持上的投入,本地推理的体验正在被快速缩短。对于开发者和 AI agent 用户来说,在 Mac 上运行 coding agent、个人助手等场景的体验将会有质的飞跃。