Microsoft Research 在 5 月发布的 SkillOpt 把 Agent 工程里一件原本靠人肉手写的事——改写「技能 .md」——变成类似深度学习训练的可控流程。核心观察是:与其继续让 Prompt 工程师手改技能文档,不如让一个外部的「优化器模型」按 SGD 的纪律去更新它。具体做法是:固定目标模型不训练,把当前技能插入 Agent 上下文采样若干轨迹;优化器把成功/失败分成小批,针对失败模式提出增/删/改三类编辑;候选技能必须通过一个 held-out 验证门才被接受,被拒的编辑进入 rejected buffer 当作负反馈;每轮 epoch 结束再做一次「慢更新」做动量式总结。整个流程加在文本空间上,部署时零额外推理调用。 论文在 6 个基准、7 个目标模型、3 种 harness 共 52 个 cell 上评估,SkillOpt 全部拿到 best-or-tied,击败或打平 no-skill、人工写、LLM 一次性写、Trace2Skill、TextGrad、GEPA、EvoSkill 等所有基线。GPT-5.5 直聊平均 +23.5 分,Codex +24.8,Claude Code +19.1;最具说服力的是跨 harness 迁移——一个在 Codex 里训练出的电子表格技能直接搬到 Claude Code,拿到 +59.7 的相对提升。 传统「写 skill」是黑魔法:动一行可能把 80 分改回 40 分。SkillOpt 的工程价值在于把"学习率(编辑预算)、验证集、动量、负反馈"这套早已在神经网络里成熟的控件,原样搬到文本上,让 300–2000 token 的技能 .md 也能稳定训练。同一份 best_skill.md 可跨模型、跨 harness、跨相近任务复用,对闭源模型同样适用,因为它碰的是上下文而不是权重。对正在用 Codex/Claude Code 搭 Agent 团队的人来说,这是个值得关注的工作流改造。