云知声 U2 大模型正式发布:266B 总参数 / 10B 激活的原生 Agent 架构

云知声 6 月 8 日发布新一代通用大模型 U2,把"原生 Agent 大模型"标签贴到自己身上。U2 总参数 266B,单次推理仅激活约 10B——相比动辄上万亿的稠密模型,token 消耗量约为其 25%,"智能密度"在这组数字里被具象化了。 技术路径上,U2 走了一条与多数同行不同的路线:把工具调用、状态管理、任务规划从训练第一天就内化到模型里,而非"先练聊天模型再外挂 Agent 框架"。为此云知声引入了**模型 + Harness 协同演进**机制——训练中模型主体越复杂,驾驭脚手架的支撑节点和验证精度也同步延伸;更严苛的脚手架反过来约束模型输出,形成闭环。 训练侧还有两个关键设计:**过程监督 + 课程学习**组合,让模型从易到难、从短上下文到长链路任务渐进进化;**隐式思考推理 + 显式思考验证**——日常探索留在隐空间,避开显式 reasoning 的 token 浪费,关键阶段再切到可读、可校验的显式推理。这和 o 系列、R1 那种"全程展开思考链"截然相反。 跑分表现也站得住。GPQA Diamond 87.9,超过 GLM-5.1(86.2)、DeepSeek-V4-Flash High(87.4)、MiniMax M2.5/M2.7(87.4);IFBench 指令遵循 77.3;AA-LCR 长上下文 70,反超 GLM-5.1(62.3)、DeepSeek-V4-Flash(62.7)。Claw-Eval pass@3 拿到 76.9,Agent 能力居国产第一梯队前列。 云知声把"高智能密度 × 高 Token 价值"做成产品公式,本质是在回答:当算力不再无限时,企业真正买的是"每一美元 token 能换回多少可靠任务完成度"。U2 的 266B/10B MoE 选型、Harness 协同、隐式/显式推理切换,把这条路径工程化了。"少参数也能跑出可执行 Agent"正在悄悄改写国产基础模型的价值评估标准。