arXiv 2606.06741 提出的 OpenSkill 给"自进化 Agent"换了一个干净的问题设定:真实开放部署中往往没有可用学习循环——既无整理好的技能库,也无成功轨迹,更无显式验证信号;留给 Agent 的只有任务提示。OpenSkill 让 Agent 从文档、代码仓库和开放网页中获取带"锚定"的领域知识与验证依据,再把这种知识合成为可迁移的技能,并用自建的虚拟任务进行强化——这些任务以锚定为基础,而不是目标答案,从而在完全不接触目标监督的情况下完成自我打磨。 论文在三个基准上对两个目标 Agent 进行测试,在满足"无监督"约束的前提下拿到了最高的自动通过率。更有意思的是两件事:OpenSkill 学到的技能可以跨模型迁移而无需针对性微调;它自建的验证器虽然从未见过真实结果,但与 ground-truth 的判定高度一致。 这件事值得说道的点在于:过去一年自进化相关工作几乎都建立在"先有可用监督"或"先有 golden trajectory"的前提上,这种前提在工业部署中很难凑齐。OpenSkill 把"无监督 + 跨模型可迁移"摆到了台面上,相当于把 Agent 训练的数据门槛拉回到了"只要有公开文档"的水平。结合近期 self-evolution 类论文频出的趋势,这条路如果走通,企业 Agent 的迭代周期会从"月"缩短到"周"。但也要冷静:跨模型迁移在 reasoning-heavy 任务上的边界、自建验证器在长尾分布上的鲁棒性,目前都还没有系统数据。算法很优雅,下一步要看的不是论文分数,而是真生产环境里跑不跑得动。