[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-068bcc7a-d901-4d3d-924c-eefa7ced4467":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"068bcc7a-d901-4d3d-924c-eefa7ced4467","TokenSpeed 开源推理引擎发布：剑指 Agentic Workloads 的高效推理","随着 Claude Code、Codex 等 Coding Agent 规模不断扩大，底层推理引擎正面临前所未有的压力——长上下文、多轮对话、实时响应，传统的通用推理框架在这些场景下左支右绌。LightSeek Foundation 于 2026 年 5 月发布了 TokenSpeed，一款专为 Agentic 工作负载设计的开源 LLM 推理引擎，剑指 TensorRT-LLM 级别性能。\n\n**为什么 Agentic 推理是另一个问题**\n\nCoding Agent 的请求与普通聊天截然不同：上下文动不动超过 50K token，对话往往持续数十轮。这对两个指标同时施压：一是每 GPU TPM（每分钟 token 数），决定单卡能服务多少用户；二是每用户 TPS（每秒 token 数），决定用户是否觉得响应流畅。大多数公开 benchmark 并不覆盖这类场景。\n\nTokenSpeed 的目标是同时最大化这两个指标：在保持每用户 TPS 底线（通常 70 TPS，部分场景 200+ TPS）的前提下，最大化 per-GPU TPM。\n\n**五层架构的设计逻辑**\n\nTokenSpeed 的架构围绕五个核心设计支柱展开：编译器驱动的并行建模层、高性能调度器、安全的 KV 资源复用限制、可插拔的分层内核系统，以及 SMG 集成的低开销 CPU 侧请求入口。\n\n在建模层，TokenSpeed 采用本地 SPMD（单程序多数据）并行模式——所有进程运行同一程序但操作不同数据子集，开发者只需在模块边界标注 I\u002FO 位置，轻量级静态编译器自动生成集合通信逻辑，省去手动实现的繁琐。\n\n调度层将控制平面与执行平面结构性分离。控制平面在 C++ 中实现为有限状态机，通过类型系统在编译时强制安全资源管理（包括 KV 缓存状态传递和生命周期），而非依赖运行时约定。执行平面则使用 Python 实现，保证开发效率。\n\n内核层将 GPU 内核视为一等模块而非硬编码到引擎核心，提供可移植的公共 API、集中式注册与选择模型，以及支持异构加速器的可扩展插件机制。团队还为 NVIDIA Blackwell 开发了目前最快的 MLA（Multi-head Latent Attention）内核之一。值得关注的是，TokenSpeed MLA 已被 vLLM 采纳。\n\n**对行业的启示**\n\nTokenSpeed 的出现折射出一个正在形成的新趋势：推理引擎正从「通用高效」走向「场景深度优化」。当行业从「模型越大越好」转向「推理越省越好」，推理框架的竞争也从性能数字游戏进入垂直场景的精细化打磨阶段。Agentic 推理的战场，才刚刚开始。","https:\u002F\u002Fwww.marktechpost.com\u002F2026\u002F05\u002F07\u002Flightseek-foundation-releases-tokenspeed-an-open-source-llm-inference-engine-targeting-tensorrt-llm-level-performance-for-agentic-workloads\u002F","8382d60c-c2c4-49c5-9638-8518b803f88f",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"7ac06d8e-b074-4147-abfc-ffaa4c6b8744","ai-efficiency",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source","2026-05-20T19:10:00Z","2026-05-20T19:06:36.891522Z","2026-05-20T19:06:36.891530Z",true,"agent",1]