EurekAgent：把科学发现的瓶颈从「工作流」拽到「环境」，11 美元跑出 26 圆 packing 新 SOTA

arxiv 2606.13662（Amy Xin 等，Lei Hou / Juanzi Li 共同作者）抛出一个并不讨巧、却很有杀伤力的判断：随着模型能力继续拉高，自主科学发现（autonomous scientific discovery）的瓶颈正在从"写更好的 agent workflow"迁移到"设计更好的 agent environment"。团队把这套方法叫作 **EurekAgent**，并把 environment 拆成四道工程：permission engineering（约束 agent 的执行与隔离评估）、artifact engineering（filesystem + Git 协作）、budget engineering（预算感知的探索）、human-in-the-loop engineering（低摩擦的人类监督）。数字比抽象名词更直观：在 26 圆 packing 这类公开数学基准上，EurekAgent 用 **不到 11 美元**的总 API 成本跑出新的 SOTA，并在多类数学、kernel 工程、机器学习任务上同时刷新纪录。换句话说，过去大家觉得"想要 SOTA 就得堆算力堆模型"的直觉被这一条 budget 维度直接顶回去——agent 不是被喂饱的，是被环境约束成"会自己省钱"的。更深一层的意义在于把"环境设计"摆到了与"模型架构"同级的位置。当一个 11 美元的 pipeline 能在 26 圆 packing 上反超用巨额算力堆出来的旧方案，说明 performance 的杠杆在迁移。下一轮比拼，很可能不再是哪个研究组的模型更大，而是谁的 sandbox 设计更克制、谁的人类干预阈值更准。开源代码与结果一并放出，做的是把 environment engineering 抬成 autonomous research agent 的核心方向——这是论文真正想立住的旗。