OpenSkill 框架：让 LLM Agent 在无监督条件下从零自建技能与验证器

arXiv 2606.06741 提出的 OpenSkill 给"自进化 Agent"换了一个干净的问题设定：真实开放部署中往往没有可用学习循环——既无整理好的技能库，也无成功轨迹，更无显式验证信号；留给 Agent 的只有任务提示。OpenSkill 让 Agent 从文档、代码仓库和开放网页中获取带"锚定"的领域知识与验证依据，再把这种知识合成为可迁移的技能，并用自建的虚拟任务进行强化——这些任务以锚定为基础，而不是目标答案，从而在完全不接触目标监督的情况下完成自我打磨。论文在三个基准上对两个目标 Agent 进行测试，在满足"无监督"约束的前提下拿到了最高的自动通过率。更有意思的是两件事：OpenSkill 学到的技能可以跨模型迁移而无需针对性微调；它自建的验证器虽然从未见过真实结果，但与 ground-truth 的判定高度一致。这件事值得说道的点在于：过去一年自进化相关工作几乎都建立在"先有可用监督"或"先有 golden trajectory"的前提上，这种前提在工业部署中很难凑齐。OpenSkill 把"无监督 + 跨模型可迁移"摆到了台面上，相当于把 Agent 训练的数据门槛拉回到了"只要有公开文档"的水平。结合近期 self-evolution 类论文频出的趋势，这条路如果走通，企业 Agent 的迭代周期会从"月"缩短到"周"。但也要冷静：跨模型迁移在 reasoning-heavy 任务上的边界、自建验证器在长尾分布上的鲁棒性，目前都还没有系统数据。算法很优雅，下一步要看的不是论文分数，而是真生产环境里跑不跑得动。