Vortex：让 AI Agent 自动设计稀疏注意力算法，推理吞吐最高提升 4.7 倍

稀疏注意力已成为突破 LLM 长上下文推理瓶颈的关键路径，但每一种新算法从论文到生产部署，往往需要重写整套 CUDA/Triton 内核，工程门槛极高。arXiv 2606.06453 提出的 Vortex 系统给出了一个反直觉的解法：让稀疏注意力本身变成可编程的运行时。 Vortex 由两层构成。前端是一套 Python 嵌入的领域专用语言，配合 page-centric 张量抽象，能让研究者在几行 Python 代码里表达一整套稀疏注意力算法——包括块稀疏、滑动窗口、Lightning Indexer 等。后端则与 vLLM 等现代推理栈深度集成，免去重复造轮子。最值得关注的亮点在第二阶段：Vortex 已成为 AI Agent 自动搜索稀疏注意力算法的「试验场」。论文披露，多个 AI 智能体基于 Vortex 自动生成、迭代、评估算法，最优方案在保持精度的同时实现 3.46 倍于全注意力的吞吐。系统还在 MLA 架构的 GLM-4.7-Flash 上跑到 4.7 倍加速，并在 229B 参数的 MiniMax-M2.7 上取得 1.37 倍吞吐增益。这件事的意义不只是又一个推理加速工作。稀疏注意力第一次以「Agent 可调用的基础设施」形态出现，意味着 AI 系统优化本身也进入了 Agent 化阶段：模型不仅能写代码，还能批量生产并验证自己的推理内核。下一步值得关注的，是这套思路能否在 MoE 路由、KV cache 调度等更复杂的子系统中复制。