[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-0e739e79-b53d-485a-bf92-fafc5f01c7d9":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":20,"created_at":21,"modified_at":22,"is_published":23,"publish_type":24,"image_url":13,"view_count":25},"0e739e79-b53d-485a-bf92-fafc5f01c7d9","Ollama 0.19 集成 MLX 后端，Apple Silicon 本地推理速度翻倍","Ollama 0.19 正式预览 MLX 后端支持，这是本地 AI 推理领域的一个重要里程碑。此前 Ollama 在 Apple Silicon 上主要依赖 llama.cpp 的 Metal 实现，而切换到 Apple 自家的 MLX 框架后，充分利用了统一内存架构的优势，实现了显著的性能提升。\n\n实测数据令人印象深刻：在 M5 芯片上，使用 Qwen3.5-35B-A3B 模型，预填充速度达到 1810 token\u002Fs，解码速度 112 token\u002Fs（NVFP4 量化）。如果使用 int4 量化，预填充进一步提升至 1851 token\u002Fs，解码 134 token\u002Fs。相比此前基于 llama.cpp Q4_K_M 的实现，整体速度提升接近 2 倍。值得注意的是，M5 系列新增的 GPU Neural Accelerators 为首 token 延迟和生成速度带来了额外加成。\n\n除了后端切换，本次更新还引入了 NVIDIA 的 NVFP4 量化格式。NVFP4 不仅降低了内存带宽和存储需求，更重要的是让本地推理结果与生产环境保持一致——越来越多的云端推理服务正在采用这一格式。同时 Ollama 的缓存机制也得到改进：跨对话复用缓存降低内存占用，智能检查点减少重复处理，共享前缀的驱逐策略更合理，这对 Claude Code、OpenClaw 等 coding agent 场景尤为有利。\n\n目前 MLX 后端仍处于预览阶段，首发的优化模型是 Qwen3.5-35B-A3B，需要 32GB 以上统一内存的 Mac。后续将扩展支持更多架构，并引入更便捷的自定义模型导入方式。\n\n从行业角度看，Ollama 选择 MLX 而非继续优化 llama.cpp Metal 后端，意味着 Apple Silicon 的本地推理生态正在分化。MLX 的统一内存调度能力天然适合大模型场景，再加上 NVIDIA 在 NVFP4 和 MLX CUDA 支持上的投入，本地推理的体验正在被快速缩短。对于开发者和 AI agent 用户来说，在 Mac 上运行 coding agent、个人助手等场景的体验将会有质的飞跃。","https:\u002F\u002Follama.com\u002Fblog\u002Fmlx","a1e592fe-9e08-48a2-aaa9-a6cd1c1def3b",[10,14,17],{"id":11,"name":12,"slug":12,"description":13,"color":13},"5e628969-6d2a-437f-998a-104e4b16cfb1","ai-progress",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":18,"name":19,"slug":19,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source","2026-04-18T13:30:00Z","2026-04-18T13:31:07.934242Z","2026-04-18T13:31:07.934259Z",true,"manual",5]