Ollama 0.19 集成 MLX 后端，Apple Silicon 本地推理速度翻倍

Ollama 0.19 正式预览 MLX 后端支持，这是本地 AI 推理领域的一个重要里程碑。此前 Ollama 在 Apple Silicon 上主要依赖 llama.cpp 的 Metal 实现，而切换到 Apple 自家的 MLX 框架后，充分利用了统一内存架构的优势，实现了显著的性能提升。实测数据令人印象深刻：在 M5 芯片上，使用 Qwen3.5-35B-A3B 模型，预填充速度达到 1810 token/s，解码速度 112 token/s（NVFP4 量化）。如果使用 int4 量化，预填充进一步提升至 1851 token/s，解码 134 token/s。相比此前基于 llama.cpp Q4_K_M 的实现，整体速度提升接近 2 倍。值得注意的是，M5 系列新增的 GPU Neural Accelerators 为首 token 延迟和生成速度带来了额外加成。除了后端切换，本次更新还引入了 NVIDIA 的 NVFP4 量化格式。NVFP4 不仅降低了内存带宽和存储需求，更重要的是让本地推理结果与生产环境保持一致——越来越多的云端推理服务正在采用这一格式。同时 Ollama 的缓存机制也得到改进：跨对话复用缓存降低内存占用，智能检查点减少重复处理，共享前缀的驱逐策略更合理，这对 Claude Code、OpenClaw 等 coding agent 场景尤为有利。目前 MLX 后端仍处于预览阶段，首发的优化模型是 Qwen3.5-35B-A3B，需要 32GB 以上统一内存的 Mac。后续将扩展支持更多架构，并引入更便捷的自定义模型导入方式。从行业角度看，Ollama 选择 MLX 而非继续优化 llama.cpp Metal 后端，意味着 Apple Silicon 的本地推理生态正在分化。MLX 的统一内存调度能力天然适合大模型场景，再加上 NVIDIA 在 NVFP4 和 MLX CUDA 支持上的投入，本地推理的体验正在被快速缩短。对于开发者和 AI agent 用户来说，在 Mac 上运行 coding agent、个人助手等场景的体验将会有质的飞跃。