AI的「锯齿前沿」：能拿奥赛金牌却看不懂模拟时钟

斯坦福HAI《2026 AI指数报告》提出了一个精准的技术概念——「锯齿前沿」（jagged frontier）。前沿模型能在IMO数学奥赛上摘金，却在「读模拟时钟」这个人类幼教级别的任务上正确率仅为50.1%。同一批模型在SWE-bench编程基准上接近100%，却在PaperArena科研推理测试中只达到博士生的50%水平。这种能力分布的高度不均匀性，正在成为大模型评估的核心矛盾。「锯齿前沿」的本质是AI能力与任务迁移之间的结构性断层。传统基准测试（如MMLU、HumanEval）衡量的是单一维度，但现实场景需要的往往是跨维度协作。一个能完美完成形式化数学证明的模型，可能对「把三个苹果分给四个人」这种需要具身常识的问题毫无章法。这种割裂提示我们：Scaling Law的边际收益正在以不均衡的方式递减。从技术角度分析，「锯齿」现象反映了RLHF训练的隐式偏好。当强化学习信号集中在可量化的任务（如代码正确性、形式化证明）上时，模型会过度优化这类目标，而对难以定义奖励的常识推理任务形成盲区。这也解释了为什么视觉-语言模型在OCR这种「传统难题」上表现稳定，但在跨文档逻辑推理上常常出错。更深的问题在于评估范式的滞后。当前主流 benchmark 的设计逻辑是「让模型做人类能做的事」，但前沿模型已经在大量任务上超越了人类基准。斯坦福AI Index提出的Humanity's Last Exam试图用「专门为难倒AI而设计」的题目来重新划定边界——但这种逆向设计本身也暴露了我们的评估框架正在疲于追赶。对开发者而言，「锯齿前沿」意味着没有银弹。单纯追逐SOTA benchmark分数正在失去指导意义，更务实的路径是针对特定场景做能力剖析：在目标使用-case上做细粒度的红队测试，而非相信一个综合分数。这也将影响模型选型——未来「哪个模型最强」将变成一个越来越难回答的问题，因为答案高度依赖于你在哪个任务上提问。锯齿不会消失。它是大模型能力的天然形态——不是连续的进步曲线，而是参差的、在不同任务上此起彼伏的突破。对使用者来说，理解这一点比追求一个更高的综合分数要重要得多。