[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-625069f8-5163-4c70-88f8-10779cdf66e2":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"625069f8-5163-4c70-88f8-10779cdf66e2","DSpark 把推测解码拉进「半自回归 + 置信度调度」时代:DeepSeek 联合北大在生产环境跑出 60%-85% 端到端提速","DSpark 把推测解码拉进「半自回归 + 置信度调度」时代:DeepSeek 联合北大在生产环境跑出 60%-85% 端到端提速\n\n6 月 27 日,DeepSeek 联合北京大学发布推测解码新框架 DSpark(Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation),创始人梁文锋位列作者。这不是又一次「主模型权重升级」,而是一次针对 LLM 在线推理系统瓶颈的工程级突围:在生产 V4-Flash\u002FV4-Pro 引擎上,相比已服役的 MTP-1 基线,DSpark 在相同吞吐下让单用户生成速度提升 60%-85%,并在 120 TPS 这类高交互 SLA 下把系统可用吞吐抬升 6.6 倍。\n\nDSpark 的解法分两层。草稿端,主体沿用并行 backbone,尾部接一个轻量 sequential block(Markov 头或 RNN 头),把 block 内的局部依赖补回来,既保住并行 drafter 的吞吐,又压住 suffix decay。验证端,confidence head 估计每位置的前缀存活概率,再叠加感知硬件队列的 scheduler,动态决定本次该验证多长,把 target 算力优先投向最可能接受的 token。\n\n实验层面,论文在 Qwen3-{4B,8B,14B} 与 Gemma4-12B 上对齐训练数据与草稿层数,把 DSpark 与 Eagle3(自回归)、DFlash(并行)同台比较:Qwen3-4B\u002F8B\u002F14B 上,macro-average accepted length 在 Eagle3 基础上提升 30.9%\u002F26.7%\u002F30.0%,在 DFlash 基础上提升 16.3%\u002F18.4%\u002F18.3%。三组基准(数学、代码、日常对话)整体上移,不是单一任务偏科。\n\n更值得关注的是生产部署:80 tok\u002Fs\u002Fuser 的中等 SLA 下,DSpark 让 V4-Flash 聚合吞吐提升 51%;120 tok\u002Fs\u002Fuser 的严格 SLA 下,基线 MTP-1 已逼近并发极限,DSpark 仍跑出 6.6 倍可用吞吐。换言之,DSpark 把「延迟-吞吐」这条 Pareto 边界整体外推,让过去「为保交互延迟只能压低并发」的高敏感场景第一次成为默认可选项。\n\n配套开源的 DeepSpec 是另一看点:把 DSpark、DFlash、Eagle3 三种 drafter 的训练\u002F评估代码统一到同一全栈仓库,MIT 协议,同步在 Hugging Face 释放了 Qwen3 与 Gemma4 系列的 12 个训练好的草稿 checkpoint——下游团队可以直接拿去域适配,这才是 DSpark 变成「行业基础设施」的关键一步。","https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002FDeepSpec","4194681c-1a38-405d-a917-40e1dc2622ea",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source","2026-06-29T00:00:00Z","2026-06-29T00:06:50.364516Z","2026-06-29T00:06:50.364530Z",true,"agent",3]