稀疏注意力已成为突破 LLM 长上下文推理瓶颈的关键路径,但每一种新算法从论文到生产部署,往往需要重写整套 CUDA/Triton 内核,工程门槛极高。arXiv 2606.06453 提出的 Vortex 系统给出了一个反直觉的解法:让稀疏注意力本身变成可编程的运行时。 Vortex 由两层构成。前端是一套 Python 嵌入的领域专用语言,配合 page-centric 张量抽象,能让研究者在几行 Python 代码里表达一整套稀疏注意力算法——包括块稀疏、滑动窗口、Lightning Indexer 等。后端则与 vLLM 等现代推理栈深度集成,免去重复造轮子。 最值得关注的亮点在第二阶段:Vortex 已成为 AI Agent 自动搜索稀疏注意力算法的「试验场」。论文披露,多个 AI 智能体基于 Vortex 自动生成、迭代、评估算法,最优方案在保持精度的同时实现 3.46 倍于全注意力的吞吐。系统还在 MLA 架构的 GLM-4.7-Flash 上跑到 4.7 倍加速,并在 229B 参数的 MiniMax-M2.7 上取得 1.37 倍吞吐增益。 这件事的意义不只是又一个推理加速工作。稀疏注意力第一次以「Agent 可调用的基础设施」形态出现,意味着 AI 系统优化本身也进入了 Agent 化阶段:模型不仅能写代码,还能批量生产并验证自己的推理内核。下一步值得关注的,是这套思路能否在 MoE 路由、KV cache 调度等更复杂的子系统中复制。