EurekAgent:把科学发现的瓶颈从「工作流」拽到「环境」,11 美元跑出 26 圆 packing 新 SOTA

arxiv 2606.13662(Amy Xin 等,Lei Hou / Juanzi Li 共同作者)抛出一个并不讨巧、却很有杀伤力的判断:随着模型能力继续拉高,自主科学发现(autonomous scientific discovery)的瓶颈正在从"写更好的 agent workflow"迁移到"设计更好的 agent environment"。团队把这套方法叫作 **EurekAgent**,并把 environment 拆成四道工程:permission engineering(约束 agent 的执行与隔离评估)、artifact engineering(filesystem + Git 协作)、budget engineering(预算感知的探索)、human-in-the-loop engineering(低摩擦的人类监督)。 数字比抽象名词更直观:在 26 圆 packing 这类公开数学基准上,EurekAgent 用 **不到 11 美元**的总 API 成本跑出新的 SOTA,并在多类数学、kernel 工程、机器学习任务上同时刷新纪录。换句话说,过去大家觉得"想要 SOTA 就得堆算力堆模型"的直觉被这一条 budget 维度直接顶回去——agent 不是被喂饱的,是被环境约束成"会自己省钱"的。 更深一层的意义在于把"环境设计"摆到了与"模型架构"同级的位置。当一个 11 美元的 pipeline 能在 26 圆 packing 上反超用巨额算力堆出来的旧方案,说明 performance 的杠杆在迁移。下一轮比拼,很可能不再是哪个研究组的模型更大,而是谁的 sandbox 设计更克制、谁的人类干预阈值更准。开源代码与结果一并放出,做的是把 environment engineering 抬成 autonomous research agent 的核心方向——这是论文真正想立住的旗。