随着 Claude Code、Codex 等 Coding Agent 规模不断扩大,底层推理引擎正面临前所未有的压力——长上下文、多轮对话、实时响应,传统的通用推理框架在这些场景下左支右绌。LightSeek Foundation 于 2026 年 5 月发布了 TokenSpeed,一款专为 Agentic 工作负载设计的开源 LLM 推理引擎,剑指 TensorRT-LLM 级别性能。 **为什么 Agentic 推理是另一个问题** Coding Agent 的请求与普通聊天截然不同:上下文动不动超过 50K token,对话往往持续数十轮。这对两个指标同时施压:一是每 GPU TPM(每分钟 token 数),决定单卡能服务多少用户;二是每用户 TPS(每秒 token 数),决定用户是否觉得响应流畅。大多数公开 benchmark 并不覆盖这类场景。 TokenSpeed 的目标是同时最大化这两个指标:在保持每用户 TPS 底线(通常 70 TPS,部分场景 200+ TPS)的前提下,最大化 per-GPU TPM。 **五层架构的设计逻辑** TokenSpeed 的架构围绕五个核心设计支柱展开:编译器驱动的并行建模层、高性能调度器、安全的 KV 资源复用限制、可插拔的分层内核系统,以及 SMG 集成的低开销 CPU 侧请求入口。 在建模层,TokenSpeed 采用本地 SPMD(单程序多数据)并行模式——所有进程运行同一程序但操作不同数据子集,开发者只需在模块边界标注 I/O 位置,轻量级静态编译器自动生成集合通信逻辑,省去手动实现的繁琐。 调度层将控制平面与执行平面结构性分离。控制平面在 C++ 中实现为有限状态机,通过类型系统在编译时强制安全资源管理(包括 KV 缓存状态传递和生命周期),而非依赖运行时约定。执行平面则使用 Python 实现,保证开发效率。 内核层将 GPU 内核视为一等模块而非硬编码到引擎核心,提供可移植的公共 API、集中式注册与选择模型,以及支持异构加速器的可扩展插件机制。团队还为 NVIDIA Blackwell 开发了目前最快的 MLA(Multi-head Latent Attention)内核之一。值得关注的是,TokenSpeed MLA 已被 vLLM 采纳。 **对行业的启示** TokenSpeed 的出现折射出一个正在形成的新趋势:推理引擎正从「通用高效」走向「场景深度优化」。当行业从「模型越大越好」转向「推理越省越好」,推理框架的竞争也从性能数字游戏进入垂直场景的精细化打磨阶段。Agentic 推理的战场,才刚刚开始。