最近行业里在做一个有趣的转向:不再只是让模型答题,而是教它完成真实任务。 昆仑万维天工 AI 于 5 月 22 日发布的高性能 Agent 模型 SkyClaw-v1.0,走的就是这条路线。和主流 Agent 模型相比,它的训练方式值得注意:基于 OpenClaw 风格真实工作流构建训练任务,经过高质量合成任务 SFT 与端到端强化学习优化,最终得到稳定的多步任务执行能力。 在 benchmark 数据上,SkyClaw-v1.0 交出了一份超出预期的成绩:在 PinchBench-v2、Claw-Eval Pass³ 等主流 Agent 评测中,综合表现超越 MiniMax 2.7、DeepSeek V4 Flash,以及 Qwen 3.6 35B A3B 和 27B 系列。更值得关注的是,在 OpenClaw 相关任务上,SkyClaw 的表现已经接近 DeepSeek V4 Pro、Claude Opus 4.6、Qwen 3.6 Plus 等规模更大的闭源模型。 这不是偶然。SkyClaw 支持百万 token 上下文,这意味着模型有能力在一次对话中维持完整的工作记忆——读取一个大代码仓库、理解多文档依赖、在长程推理中不丢失关键信息。结合端到端 RL 的训练路线,这种长上下文能力不只是能读长文本,而是真正转化为能执行复杂长程任务。同时,轻量版 SkyClaw-v1.0-lite 以更低成本继承了强 Agent 能力,为规模化调用提供了更低门槛。 Agent 模型正在从聪明的问答系统进化为能干活的数字员工。SkyClaw 的出现证明,用真实工作流数据和强化学习训练的中小规模模型,完全可以在特定任务上逼近顶级大模型。当这种效率差距进一步收窄,Agent 能力的大规模商业落地就不再是成本问题,而是基础设施问题。