SkillOpt：把 Agent 技能 .md 文档训练成"可学习参数"

Microsoft Research 在 5 月发布的 SkillOpt 把 Agent 工程里一件原本靠人肉手写的事——改写「技能 .md」——变成类似深度学习训练的可控流程。核心观察是：与其继续让 Prompt 工程师手改技能文档，不如让一个外部的「优化器模型」按 SGD 的纪律去更新它。具体做法是：固定目标模型不训练，把当前技能插入 Agent 上下文采样若干轨迹；优化器把成功/失败分成小批，针对失败模式提出增/删/改三类编辑；候选技能必须通过一个 held-out 验证门才被接受，被拒的编辑进入 rejected buffer 当作负反馈；每轮 epoch 结束再做一次「慢更新」做动量式总结。整个流程加在文本空间上，部署时零额外推理调用。论文在 6 个基准、7 个目标模型、3 种 harness 共 52 个 cell 上评估，SkillOpt 全部拿到 best-or-tied，击败或打平 no-skill、人工写、LLM 一次性写、Trace2Skill、TextGrad、GEPA、EvoSkill 等所有基线。GPT-5.5 直聊平均 +23.5 分，Codex +24.8，Claude Code +19.1；最具说服力的是跨 harness 迁移——一个在 Codex 里训练出的电子表格技能直接搬到 Claude Code，拿到 +59.7 的相对提升。传统「写 skill」是黑魔法：动一行可能把 80 分改回 40 分。SkillOpt 的工程价值在于把"学习率（编辑预算）、验证集、动量、负反馈"这套早已在神经网络里成熟的控件，原样搬到文本上，让 300–2000 token 的技能 .md 也能稳定训练。同一份 best_skill.md 可跨模型、跨 harness、跨相近任务复用，对闭源模型同样适用，因为它碰的是上下文而不是权重。对正在用 Codex/Claude Code 搭 Agent 团队的人来说，这是个值得关注的工作流改造。