Anthropic 公开《When AI builds itself》:80% 代码已由 Claude 编写,AI 自我改进的「刹车时刻」临近

Anthropic 旗下研究机构 The Anthropic Institute 发布长文《When AI builds itself》,用公开基准与未公开的内部数据,量化 AI 在 AI 自身研发中的渗透速度,呼吁行业建立「刹车机制」以应对「递归自我改进」(recursive self-improvement)拐点。 **外部趋势:能力曲线正在加速** METR 数据显示,AI 独立完成任务的可信时长翻倍周期已从七个月压缩到约四个月:Claude Opus 3(2024.3)只能处理 4 分钟级任务,Sonnet 3.7 一年后达到 1.5 小时,Opus 4.6 又一年后达到 12 小时;Claude Mythos Preview 已被 METR 测出可连续工作至少 16 小时。文章推断,若趋势延续,2027 年可能出现「周级」任务能力。基准方面,SWE-bench(真实软件工程 bug 修复)两年内从个位数正确率走到饱和;CORE-Bench(要求复现已发表论文)从 2024 年的 20% 成功率到饱和仅用 15 个月。 **内部证据:Claude 已经是 Anthropic 的「同事」** 2026 年 5 月 Anthropic 合并代码中超过 80% 由 Claude 编写,而 2025 年 2 月 Claude Code 推出前这一比例还是个位数;单工程师日合并代码量在 2026 Q2 已是 2024 年的 8 倍。研究侧,Claude 已能在「目标明确」的实验执行上匹敌甚至超越资深工程师,但「判断目标是否值得做」这一最 senior 能力仍有明显差距——这正是阻挡「完全自我改进」的关键瓶颈。 **判断** 递归自我改进的「硬约束」在于 judgment 而非写代码或跑实验的速度。Anthropic 这篇文章的价值在于把「AI 改造 AI」的讨论从哲学命题落到可量化的工程指标上——「刹车」未必能成为可执行政策,但行业已经不能再把这件事当作远期假设。