华为云「第三条路」:从 Token工厂到 Agentic Infra,国产算力撑起的智能体底座

过去两年,中国云厂商围绕 Token 打了一场旷日持久的价格战。从2024 年 DeepSeek V2 引爆降价,到火山引擎豆包以0.0008 元/千 Token 的定价点燃战火,再到 DeepSeek R1 引发的 Coding 与视频模型 Token消耗激增,算力毛利率一度被压到为负——所有人都在比谁的 Token 更便宜、谁的调用量更大。 6 月5 日华为云 INSPIRE创想者大会上,CEO 周跃峰给出了不一样的答案:「华为云不太在乎 Token总量,也不太在乎收入总量,在乎的是国产化算力生产出来的 Token 是否真的代表生产力提升。」这便是华为云押注的「第三条路」——不拼单价和调用量,赌的是国产算力的自主可控,以及是否能让企业真正提效。 围绕这一战略,华为云搭出了完整的 Agentic Infra底座。核心是 AICS灵衢智算集群,基于灵衢网络支持10 万卡级规模,总算力200 EFLOPS,Token 时延压到10毫秒以内,千卡每秒吞吐500 万 Token,可用性99.95%,华为云称之为「Token工厂」。配套 CCE Volcano Next调度引擎用「训推共池+碎片整合」让资源利用率提升30%;AMS 用 NPU 直通硬件撑起 PB 级记忆空间;ModelArts Next 把模型路由、机密推理、强化学习即服务打包亮相,目前已聚合15+款 SOTA 模型,调度精准率超95%,调用成本平均降20%。 底座底气来自昇腾生态。年初华为云与硅基流动在 CloudMatrix384 超节点上跑 DeepSeek-R1/V3,推理效率已能追平 H800;瑞金医院病理大模型、人形机器人 CloudRobo 等行业落地,则把「硅基黑土地」的叙事推到了台前。 **点评**:当大模型竞争从「拼参数」过渡到「拼工程化与算力自主」,华为云把 Token工厂和 Agentic Infra一起押在国产算力上,既有商业合理性,也承载着国产芯片生态突围的赌注。这条路能否跑通,将直接决定国产算力在 AI时代的话语权边界。