MMLU饱和与数据污染:2026年LLM基准测试为何失去公信力

GPT-5在MMLU上斩获92.5%创纪录分数,却几乎没有泛起水花——不是因为分数不够亮眼,而是前十五名模型的分数全部挤在88.8%至92.5%区间,差距已小到失去区分价值。这是2026年LLM评测领域最讽刺的现实:行业最重要的指标正在变成一场没有赢家的数字游戏。MMLU饱和只是表象,更深层的问题是数据污染。研究显示,同一套MMLU基准,受污染比例的估算跨度从13.8%到72.5%——同一个基准,既可能被污染七分之一,也可能被污染四分之三,以这种精度它根本无法有效区分任何事物。与此同时,题库本身的质量也在侵蚀信任——总体问题错误率约6.5%,病毒学子集错误率高达57%,当超过半数的问题本身存在错误时,测量的就不再是知识而是对噪声的容忍度。MMLU-Pro试图解决这个问题:扩大题库规模、增加选项复杂度,使模型准确率下降16%至33%,202个模型平均得分74.4分,仍有区分空间。但MMLU-Pro排行榜同样暴露出一个结构性变化:中国实验室占据了前五中的多数席位,与原有OpenAI主导格局截然不同,却鲜被西方媒体报道。当数字本身变得可疑,比较便失去意义。越来越多的企业转向使用混淆矩阵、领域准确率拆分和F1分数等更精细的评估工具——用工程数据替代营销数字,才是真正的出路。