TokenSpeed 开源推理引擎发布：剑指 Agentic Workloads 的高效推理

随着 Claude Code、Codex 等 Coding Agent 规模不断扩大，底层推理引擎正面临前所未有的压力——长上下文、多轮对话、实时响应，传统的通用推理框架在这些场景下左支右绌。LightSeek Foundation 于 2026 年 5 月发布了 TokenSpeed，一款专为 Agentic 工作负载设计的开源 LLM 推理引擎，剑指 TensorRT-LLM 级别性能。 **为什么 Agentic 推理是另一个问题** Coding Agent 的请求与普通聊天截然不同：上下文动不动超过 50K token，对话往往持续数十轮。这对两个指标同时施压：一是每 GPU TPM（每分钟 token 数），决定单卡能服务多少用户；二是每用户 TPS（每秒 token 数），决定用户是否觉得响应流畅。大多数公开 benchmark 并不覆盖这类场景。 TokenSpeed 的目标是同时最大化这两个指标：在保持每用户 TPS 底线（通常 70 TPS，部分场景 200+ TPS）的前提下，最大化 per-GPU TPM。 **五层架构的设计逻辑** TokenSpeed 的架构围绕五个核心设计支柱展开：编译器驱动的并行建模层、高性能调度器、安全的 KV 资源复用限制、可插拔的分层内核系统，以及 SMG 集成的低开销 CPU 侧请求入口。在建模层，TokenSpeed 采用本地 SPMD（单程序多数据）并行模式——所有进程运行同一程序但操作不同数据子集，开发者只需在模块边界标注 I/O 位置，轻量级静态编译器自动生成集合通信逻辑，省去手动实现的繁琐。调度层将控制平面与执行平面结构性分离。控制平面在 C++ 中实现为有限状态机，通过类型系统在编译时强制安全资源管理（包括 KV 缓存状态传递和生命周期），而非依赖运行时约定。执行平面则使用 Python 实现，保证开发效率。内核层将 GPU 内核视为一等模块而非硬编码到引擎核心，提供可移植的公共 API、集中式注册与选择模型，以及支持异构加速器的可扩展插件机制。团队还为 NVIDIA Blackwell 开发了目前最快的 MLA（Multi-head Latent Attention）内核之一。值得关注的是，TokenSpeed MLA 已被 vLLM 采纳。 **对行业的启示** TokenSpeed 的出现折射出一个正在形成的新趋势：推理引擎正从「通用高效」走向「场景深度优化」。当行业从「模型越大越好」转向「推理越省越好」，推理框架的竞争也从性能数字游戏进入垂直场景的精细化打磨阶段。Agentic 推理的战场，才刚刚开始。