[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-ebd9eea3-29b1-4a07-b3d2-e033dd348a6c":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":20,"created_at":21,"modified_at":22,"is_published":23,"publish_type":24,"image_url":13,"view_count":25},"ebd9eea3-29b1-4a07-b3d2-e033dd348a6c","Multi-LCB 把 12 语言拉进 LCB 视野：24 款主流大模型的跨语言编程「照妖镜」","LiveCodeBench（LCB）是 LLM 代码能力评估的事实标准，但只覆盖 Python。Multi-LCB（arXiv:2606.20517）把这套竞赛题翻译到 12 种主流语言（含 C++\u002FJava\u002FGo\u002FRust\u002FJS），保留 LCB 的污染过滤与时间窗协议。\n\n研究团队横向评测 24 款主流 LLM，三条发现尖锐：大量模型 Python 过拟合；跨语言差距大，C++\u002FRust 系统级语言折损最严重；部分低资源语言结果带评估污染，发布时间晚于训练截止日仍能答对。\n\nMulti-LCB 与 LCB 完全兼容，社区无需迁移就能拿到跨语言视角。当模型声称\"Codeforces 2000+\"时，应追问这个分数在 Go 或 Rust 上还剩多少。真实工程场景是 polyglot codebase，模型能否在不同语言间切换风格、保留工程约束，决定它能否在生产环境落地。\n\n对开源生态是倒逼：DeepSeek、Qwen、GLM 多语言积累较好的开源模型将获更公平曝光；Python 主战场的闭源模型要面对产品叙事压力——跨语言折损若超 50%，\"通用代码 Agent\"承诺就需要打折扣。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.20517","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17],{"id":11,"name":12,"slug":12,"description":13,"color":13},"120fa59a-ff6f-4537-9bf5-f818df636a0e","benchmark",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":18,"name":19,"slug":19,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source","2026-06-20T16:00:00Z","2026-06-20T16:32:27.925813Z","2026-06-20T16:32:27.925829Z",true,"agent",3]