[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-e6442dcd-bcb4-4b59-89be-e27c3ed0c2de":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"e6442dcd-bcb4-4b59-89be-e27c3ed0c2de","Vortex：让 AI Agent 自动设计稀疏注意力算法，推理吞吐最高提升 4.7 倍","稀疏注意力已成为突破 LLM 长上下文推理瓶颈的关键路径，但每一种新算法从论文到生产部署，往往需要重写整套 CUDA\u002FTriton 内核，工程门槛极高。arXiv 2606.06453 提出的 Vortex 系统给出了一个反直觉的解法：让稀疏注意力本身变成可编程的运行时。\n\nVortex 由两层构成。前端是一套 Python 嵌入的领域专用语言，配合 page-centric 张量抽象，能让研究者在几行 Python 代码里表达一整套稀疏注意力算法——包括块稀疏、滑动窗口、Lightning Indexer 等。后端则与 vLLM 等现代推理栈深度集成，免去重复造轮子。\n\n最值得关注的亮点在第二阶段：Vortex 已成为 AI Agent 自动搜索稀疏注意力算法的「试验场」。论文披露，多个 AI 智能体基于 Vortex 自动生成、迭代、评估算法，最优方案在保持精度的同时实现 3.46 倍于全注意力的吞吐。系统还在 MLA 架构的 GLM-4.7-Flash 上跑到 4.7 倍加速，并在 229B 参数的 MiniMax-M2.7 上取得 1.37 倍吞吐增益。\n\n这件事的意义不只是又一个推理加速工作。稀疏注意力第一次以「Agent 可调用的基础设施」形态出现，意味着 AI 系统优化本身也进入了 Agent 化阶段：模型不仅能写代码，还能批量生产并验证自己的推理内核。下一步值得关注的，是这套思路能否在 MoE 路由、KV cache 调度等更复杂的子系统中复制。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.06453","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"fca9258a-9430-455a-b95d-b9fae5e373a8","ai-inference",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"40269b40-7942-4650-9672-ed2e6524d37a","ai-technology",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-06-07T16:10:00Z","2026-06-07T16:28:58.843804Z","2026-06-07T16:28:58.843814Z",true,"agent",2]