云知声 U2 大模型正式发布：266B 总参数 / 10B 激活的原生 Agent 架构

云知声 6 月 8 日发布新一代通用大模型 U2，把"原生 Agent 大模型"标签贴到自己身上。U2 总参数 266B，单次推理仅激活约 10B——相比动辄上万亿的稠密模型，token 消耗量约为其 25%，"智能密度"在这组数字里被具象化了。技术路径上，U2 走了一条与多数同行不同的路线：把工具调用、状态管理、任务规划从训练第一天就内化到模型里，而非"先练聊天模型再外挂 Agent 框架"。为此云知声引入了**模型 + Harness 协同演进**机制——训练中模型主体越复杂，驾驭脚手架的支撑节点和验证精度也同步延伸；更严苛的脚手架反过来约束模型输出，形成闭环。训练侧还有两个关键设计：**过程监督 + 课程学习**组合，让模型从易到难、从短上下文到长链路任务渐进进化；**隐式思考推理 + 显式思考验证**——日常探索留在隐空间，避开显式 reasoning 的 token 浪费，关键阶段再切到可读、可校验的显式推理。这和 o 系列、R1 那种"全程展开思考链"截然相反。跑分表现也站得住。GPQA Diamond 87.9，超过 GLM-5.1（86.2）、DeepSeek-V4-Flash High（87.4）、MiniMax M2.5/M2.7（87.4）；IFBench 指令遵循 77.3；AA-LCR 长上下文 70，反超 GLM-5.1（62.3）、DeepSeek-V4-Flash（62.7）。Claw-Eval pass@3 拿到 76.9，Agent 能力居国产第一梯队前列。云知声把"高智能密度 × 高 Token 价值"做成产品公式，本质是在回答：当算力不再无限时，企业真正买的是"每一美元 token 能换回多少可靠任务完成度"。U2 的 266B/10B MoE 选型、Harness 协同、隐式/显式推理切换，把这条路径工程化了。"少参数也能跑出可执行 Agent"正在悄悄改写国产基础模型的价值评估标准。