[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-c6dc2edc-1a4a-46b9-85e6-f1c8ef32faa6":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"c6dc2edc-1a4a-46b9-85e6-f1c8ef32faa6","DeepSeek DSpark 跑进 Apple Silicon：mlx-dspark 给出首个原生 MLX 移植,逐字节保持原模型输出","DeepSeek 在 6 月 27 日开源的 DSpark 推测解码框架,把每用户生成速度在数据中心 GPU 上提升 60%–85%,但官方实现并未覆盖 Apple Silicon。独立工程师 Abdur Rahim 在 GitHub 发布了 mlx-dspark(v0.1.0,7 月 2 日),首次把 DSpark 连带 z-lab 的 DFlash 一并原生移植到 MLX,并跑出了「逐字节相同」的严格无损输出。\n\n在 M4 Pro 的实测中,Gemma-4 12B 的生成速度从 18.4 tok\u002Fs 提到约 30 tok\u002Fs,Qwen3-4B 从 52.9 tok\u002Fs 提到约 73 tok\u002Fs,加速比约 1.6× 和 1.4×。草稿模型采用 4-bit 量化(1.8 GB),目标模型默认 8-bit,在 M 系列 unified memory 上吃满了吞吐。\n\n更有意思的是,DSpark 与 DFlash 在同一 verify 循环下做了头对头:在代码和数学这类高接受率场景,DFlash 的满 16 块扩散能跑到约 2.1×(36 tok\u002Fs);而开放聊天里接受率上不去,DSpark 的 Markov 头反而反超。一个包能按任务切换两种草稿策略,这在本地 Mac 上是第一次。\n\n但作者点出了 Mac 的天花板:Gemma-4 12B 每多核验一个 token 就要多花约 14 ms,加速比上限被钉在 2.2× 左右。DSpark 在服务侧的故事并不会原样复现到笔记本上,但「无损 + 消费级可跑」本身,就是边缘 LLM 推理走向成熟的一个清晰信号。","https:\u002F\u002Fgithub.com\u002FARahim3\u002Fmlx-dspark","998df6db-96e6-4b8e-8be1-cfa00a6cd177",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"fca9258a-9430-455a-b95d-b9fae5e373a8","ai-inference",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source","2026-07-04T12:00:00Z","2026-07-04T12:08:46.338660Z","2026-07-04T12:08:46.338668Z",true,"agent",2]