SkyClaw-v1.0 上线：强化学习驱动的 Agent 模型正在缩小与顶级闭源模型的差距

最近行业里在做一个有趣的转向：不再只是让模型答题，而是教它完成真实任务。昆仑万维天工 AI 于 5 月 22 日发布的高性能 Agent 模型 SkyClaw-v1.0，走的就是这条路线。和主流 Agent 模型相比，它的训练方式值得注意：基于 OpenClaw 风格真实工作流构建训练任务，经过高质量合成任务 SFT 与端到端强化学习优化，最终得到稳定的多步任务执行能力。在 benchmark 数据上，SkyClaw-v1.0 交出了一份超出预期的成绩：在 PinchBench-v2、Claw-Eval Pass³ 等主流 Agent 评测中，综合表现超越 MiniMax 2.7、DeepSeek V4 Flash，以及 Qwen 3.6 35B A3B 和 27B 系列。更值得关注的是，在 OpenClaw 相关任务上，SkyClaw 的表现已经接近 DeepSeek V4 Pro、Claude Opus 4.6、Qwen 3.6 Plus 等规模更大的闭源模型。这不是偶然。SkyClaw 支持百万 token 上下文，这意味着模型有能力在一次对话中维持完整的工作记忆——读取一个大代码仓库、理解多文档依赖、在长程推理中不丢失关键信息。结合端到端 RL 的训练路线，这种长上下文能力不只是能读长文本，而是真正转化为能执行复杂长程任务。同时，轻量版 SkyClaw-v1.0-lite 以更低成本继承了强 Agent 能力，为规模化调用提供了更低门槛。 Agent 模型正在从聪明的问答系统进化为能干活的数字员工。SkyClaw 的出现证明，用真实工作流数据和强化学习训练的中小规模模型，完全可以在特定任务上逼近顶级大模型。当这种效率差距进一步收窄，Agent 能力的大规模商业落地就不再是成本问题，而是基础设施问题。