DeepSeek DSpark 跑进 Apple Silicon:mlx-dspark 给出首个原生 MLX 移植,逐字节保持原模型输出

DeepSeek 在 6 月 27 日开源的 DSpark 推测解码框架,把每用户生成速度在数据中心 GPU 上提升 60%–85%,但官方实现并未覆盖 Apple Silicon。独立工程师 Abdur Rahim 在 GitHub 发布了 mlx-dspark(v0.1.0,7 月 2 日),首次把 DSpark 连带 z-lab 的 DFlash 一并原生移植到 MLX,并跑出了「逐字节相同」的严格无损输出。 在 M4 Pro 的实测中,Gemma-4 12B 的生成速度从 18.4 tok/s 提到约 30 tok/s,Qwen3-4B 从 52.9 tok/s 提到约 73 tok/s,加速比约 1.6× 和 1.4×。草稿模型采用 4-bit 量化(1.8 GB),目标模型默认 8-bit,在 M 系列 unified memory 上吃满了吞吐。 更有意思的是,DSpark 与 DFlash 在同一 verify 循环下做了头对头:在代码和数学这类高接受率场景,DFlash 的满 16 块扩散能跑到约 2.1×(36 tok/s);而开放聊天里接受率上不去,DSpark 的 Markov 头反而反超。一个包能按任务切换两种草稿策略,这在本地 Mac 上是第一次。 但作者点出了 Mac 的天花板:Gemma-4 12B 每多核验一个 token 就要多花约 14 ms,加速比上限被钉在 2.2× 左右。DSpark 在服务侧的故事并不会原样复现到笔记本上,但「无损 + 消费级可跑」本身,就是边缘 LLM 推理走向成熟的一个清晰信号。