LiveCodeBench(LCB)是 LLM 代码能力评估的事实标准,但只覆盖 Python。Multi-LCB(arXiv:2606.20517)把这套竞赛题翻译到 12 种主流语言(含 C++/Java/Go/Rust/JS),保留 LCB 的污染过滤与时间窗协议。 研究团队横向评测 24 款主流 LLM,三条发现尖锐:大量模型 Python 过拟合;跨语言差距大,C++/Rust 系统级语言折损最严重;部分低资源语言结果带评估污染,发布时间晚于训练截止日仍能答对。 Multi-LCB 与 LCB 完全兼容,社区无需迁移就能拿到跨语言视角。当模型声称"Codeforces 2000+"时,应追问这个分数在 Go 或 Rust 上还剩多少。真实工程场景是 polyglot codebase,模型能否在不同语言间切换风格、保留工程约束,决定它能否在生产环境落地。 对开源生态是倒逼:DeepSeek、Qwen、GLM 多语言积累较好的开源模型将获更公平曝光;Python 主战场的闭源模型要面对产品叙事压力——跨语言折损若超 50%,"通用代码 Agent"承诺就需要打折扣。