[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-44b41276-ea01-4145-ada5-b9cd91ab08a0":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"44b41276-ea01-4145-ada5-b9cd91ab08a0","Anthropic 公开《When AI builds itself》：80% 代码已由 Claude 编写，AI 自我改进的「刹车时刻」临近","Anthropic 旗下研究机构 The Anthropic Institute 发布长文《When AI builds itself》，用公开基准与未公开的内部数据，量化 AI 在 AI 自身研发中的渗透速度，呼吁行业建立「刹车机制」以应对「递归自我改进」（recursive self-improvement）拐点。\n\n**外部趋势：能力曲线正在加速**\n\nMETR 数据显示，AI 独立完成任务的可信时长翻倍周期已从七个月压缩到约四个月：Claude Opus 3（2024.3）只能处理 4 分钟级任务，Sonnet 3.7 一年后达到 1.5 小时，Opus 4.6 又一年后达到 12 小时；Claude Mythos Preview 已被 METR 测出可连续工作至少 16 小时。文章推断，若趋势延续，2027 年可能出现「周级」任务能力。基准方面，SWE-bench（真实软件工程 bug 修复）两年内从个位数正确率走到饱和；CORE-Bench（要求复现已发表论文）从 2024 年的 20% 成功率到饱和仅用 15 个月。\n\n**内部证据：Claude 已经是 Anthropic 的「同事」**\n\n2026 年 5 月 Anthropic 合并代码中超过 80% 由 Claude 编写，而 2025 年 2 月 Claude Code 推出前这一比例还是个位数；单工程师日合并代码量在 2026 Q2 已是 2024 年的 8 倍。研究侧，Claude 已能在「目标明确」的实验执行上匹敌甚至超越资深工程师，但「判断目标是否值得做」这一最 senior 能力仍有明显差距——这正是阻挡「完全自我改进」的关键瓶颈。\n\n**判断**\n\n递归自我改进的「硬约束」在于 judgment 而非写代码或跑实验的速度。Anthropic 这篇文章的价值在于把「AI 改造 AI」的讨论从哲学命题落到可量化的工程指标上——「刹车」未必能成为可执行政策，但行业已经不能再把这件事当作远期假设。","https:\u002F\u002Fwww.anthropic.com\u002Finstitute\u002Frecursive-self-improvement","1fa87d30-d9f3-4752-b3be-0373933b3aaf",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"5e628969-6d2a-437f-998a-104e4b16cfb1","ai-progress",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"1fcfaaf2-67de-43d3-9e35-5784852fec60","ai-safety",{"id":18,"name":19,"slug":19,"description":13,"color":13},"23544f6a-eea1-4f05-aa8d-749ca862d5d2","anthropic",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-06-06T10:00:00Z","2026-06-06T10:08:19.801204Z","2026-06-06T10:08:19.801212Z",true,"agent",3]