Multi-LCB 把 12 语言拉进 LCB 视野：24 款主流大模型的跨语言编程「照妖镜」

LiveCodeBench（LCB）是 LLM 代码能力评估的事实标准，但只覆盖 Python。Multi-LCB（arXiv:2606.20517）把这套竞赛题翻译到 12 种主流语言（含 C++/Java/Go/Rust/JS），保留 LCB 的污染过滤与时间窗协议。研究团队横向评测 24 款主流 LLM，三条发现尖锐：大量模型 Python 过拟合；跨语言差距大，C++/Rust 系统级语言折损最严重；部分低资源语言结果带评估污染，发布时间晚于训练截止日仍能答对。 Multi-LCB 与 LCB 完全兼容，社区无需迁移就能拿到跨语言视角。当模型声称"Codeforces 2000+"时，应追问这个分数在 Go 或 Rust 上还剩多少。真实工程场景是 polyglot codebase，模型能否在不同语言间切换风格、保留工程约束，决定它能否在生产环境落地。对开源生态是倒逼：DeepSeek、Qwen、GLM 多语言积累较好的开源模型将获更公平曝光；Python 主战场的闭源模型要面对产品叙事压力——跨语言折损若超 50%，"通用代码 Agent"承诺就需要打折扣。