MMLU饱和与数据污染：2026年LLM基准测试为何失去公信力

GPT-5在MMLU上斩获92.5%创纪录分数，却几乎没有泛起水花——不是因为分数不够亮眼，而是前十五名模型的分数全部挤在88.8%至92.5%区间，差距已小到失去区分价值。这是2026年LLM评测领域最讽刺的现实：行业最重要的指标正在变成一场没有赢家的数字游戏。MMLU饱和只是表象，更深层的问题是数据污染。研究显示，同一套MMLU基准，受污染比例的估算跨度从13.8%到72.5%——同一个基准，既可能被污染七分之一，也可能被污染四分之三，以这种精度它根本无法有效区分任何事物。与此同时，题库本身的质量也在侵蚀信任——总体问题错误率约6.5%，病毒学子集错误率高达57%，当超过半数的问题本身存在错误时，测量的就不再是知识而是对噪声的容忍度。MMLU-Pro试图解决这个问题：扩大题库规模、增加选项复杂度，使模型准确率下降16%至33%，202个模型平均得分74.4分，仍有区分空间。但MMLU-Pro排行榜同样暴露出一个结构性变化：中国实验室占据了前五中的多数席位，与原有OpenAI主导格局截然不同，却鲜被西方媒体报道。当数字本身变得可疑，比较便失去意义。越来越多的企业转向使用混淆矩阵、领域准确率拆分和F1分数等更精细的评估工具——用工程数据替代营销数字，才是真正的出路。