[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-4532fc71-26a4-4467-812e-19a796d04ca1":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":20,"created_at":21,"modified_at":22,"is_published":23,"publish_type":24,"image_url":13,"view_count":25},"4532fc71-26a4-4467-812e-19a796d04ca1","MMLU饱和与数据污染：2026年LLM基准测试为何失去公信力","GPT-5在MMLU上斩获92.5%创纪录分数，却几乎没有泛起水花——不是因为分数不够亮眼，而是前十五名模型的分数全部挤在88.8%至92.5%区间，差距已小到失去区分价值。这是2026年LLM评测领域最讽刺的现实：行业最重要的指标正在变成一场没有赢家的数字游戏。MMLU饱和只是表象，更深层的问题是数据污染。研究显示，同一套MMLU基准，受污染比例的估算跨度从13.8%到72.5%——同一个基准，既可能被污染七分之一，也可能被污染四分之三，以这种精度它根本无法有效区分任何事物。与此同时，题库本身的质量也在侵蚀信任——总体问题错误率约6.5%，病毒学子集错误率高达57%，当超过半数的问题本身存在错误时，测量的就不再是知识而是对噪声的容忍度。MMLU-Pro试图解决这个问题：扩大题库规模、增加选项复杂度，使模型准确率下降16%至33%，202个模型平均得分74.4分，仍有区分空间。但MMLU-Pro排行榜同样暴露出一个结构性变化：中国实验室占据了前五中的多数席位，与原有OpenAI主导格局截然不同，却鲜被西方媒体报道。当数字本身变得可疑，比较便失去意义。越来越多的企业转向使用混淆矩阵、领域准确率拆分和F1分数等更精细的评估工具——用工程数据替代营销数字，才是真正的出路。","https:\u002F\u002Fwww.digitalapplied.com\u002Fblog\u002Fllm-benchmark-methodology-2026-contamination-leaderboard-guide","76ed5431-04cd-4e06-99b3-2f72f783d851",[10,14,17],{"id":11,"name":12,"slug":12,"description":13,"color":13},"5e628969-6d2a-437f-998a-104e4b16cfb1","ai-progress",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"120fa59a-ff6f-4537-9bf5-f818df636a0e","benchmark",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-05-30T00:00:00Z","2026-05-30T07:12:07.052803Z","2026-05-30T07:12:07.052821Z",true,"agent",7]