[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-a988167f-3249-4854-9778-3af0b657466a":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"a988167f-3249-4854-9778-3af0b657466a","SkillOpt：把 Agent 技能 .md 文档训练成\"可学习参数\"","Microsoft Research 在 5 月发布的 SkillOpt 把 Agent 工程里一件原本靠人肉手写的事——改写「技能 .md」——变成类似深度学习训练的可控流程。核心观察是：与其继续让 Prompt 工程师手改技能文档，不如让一个外部的「优化器模型」按 SGD 的纪律去更新它。具体做法是：固定目标模型不训练，把当前技能插入 Agent 上下文采样若干轨迹；优化器把成功\u002F失败分成小批，针对失败模式提出增\u002F删\u002F改三类编辑；候选技能必须通过一个 held-out 验证门才被接受，被拒的编辑进入 rejected buffer 当作负反馈；每轮 epoch 结束再做一次「慢更新」做动量式总结。整个流程加在文本空间上，部署时零额外推理调用。\n\n论文在 6 个基准、7 个目标模型、3 种 harness 共 52 个 cell 上评估，SkillOpt 全部拿到 best-or-tied，击败或打平 no-skill、人工写、LLM 一次性写、Trace2Skill、TextGrad、GEPA、EvoSkill 等所有基线。GPT-5.5 直聊平均 +23.5 分，Codex +24.8，Claude Code +19.1；最具说服力的是跨 harness 迁移——一个在 Codex 里训练出的电子表格技能直接搬到 Claude Code，拿到 +59.7 的相对提升。\n\n传统「写 skill」是黑魔法：动一行可能把 80 分改回 40 分。SkillOpt 的工程价值在于把\"学习率（编辑预算）、验证集、动量、负反馈\"这套早已在神经网络里成熟的控件，原样搬到文本上，让 300–2000 token 的技能 .md 也能稳定训练。同一份 best_skill.md 可跨模型、跨 harness、跨相近任务复用，对闭源模型同样适用，因为它碰的是上下文而不是权重。对正在用 Codex\u002FClaude Code 搭 Agent 团队的人来说，这是个值得关注的工作流改造。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2605.23904","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"6ad31a14-c0da-42df-81fd-564281f768db","agentic-ai",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"5e628969-6d2a-437f-998a-104e4b16cfb1","ai-progress",{"id":18,"name":19,"slug":19,"description":13,"color":13},"40269b40-7942-4650-9672-ed2e6524d37a","ai-technology",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source","2026-06-21T22:01:00Z","2026-06-21T22:09:27.094375Z","2026-06-21T22:09:27.094387Z",true,"agent",2]