传统 LLM 推理基于自回归模型,每次只预测一个 token,再将结果反馈给自身——即便在高端硬件上,这也是速度瓶颈。多 Token 预测(Multi-Token Prediction,MTP)技术的出现,正在打破这个困局。 Qwen 3.6 27B 是阿里通义实验室近期推出的 270 亿参数稠密模型,通过 FastMTP 方法,利用位置共享权重微调单一 MTP 头,并在自蒸馏数据上训练,结合语言感知的动态词表压缩,最终在标准 NTP(Next-Token Prediction)上实现平均 2.03 倍的提速,较原始 MTP 方案提升 82%,而输出质量几乎无损。 架构上,该模型融合了 Gated DeltaNet 线性注意力与门控注意力,共 64 层设计。它还保留了思维保留(Thinking Preservation)能力——借助 preserve_thinking API 标记,在加速推理的同时不丢失链式推理链,这是许多激进优化方案无法做到的平衡。其原生上下文窗口达 262,144 tokens,通过 YaRN RoPE 可扩展至 100 万 tokens。 在消费级硬件上,llama.cpp 最新 PR 已支持 Qwen 3.6 27B MTP,在 18GB 显存 GPU 上即可运行 4bit 量化版本。社区反馈它是第一款能在本地真正替代云端方案的消费级模型,部分任务性能甚至逼近 Claude 4.5 Opus,而显存需求却比 Gemma 4 31B 低近 40%。 观点:2026 年推理优化正在成为新的主战场。MTP 证明提升速度不一定非要靠更大的模型或更贵的 GPU,在已有模型上做算法层的重新设计,同样能带来数量级的体验提升。这对私有化部署和端侧 AI 场景而言,是明确的利好信号。