《金融时报》上周披露,Google 已对 Meta 使用 Gemini 模型设限——原因是 Meta 想要的算力超出了 Google 能交付的能力,与商业竞争无关。 据 FT 援引知情人士,Google 约在今年 3 月通知 Meta,无法满足其希望采购的 Gemini 算力规模,导致 Meta 部分内部 AI 项目被迫延期。Meta 受冲击最大,其他 Google 大客户也受影响,但程度较轻。Meta 内部随后开始鼓励员工更高效使用 token。 信号其实早埋下:Google Cloud 一季度财报里,CEO Sundar Pichai 已承认算力约束限制了 Google Cloud 的更高增长,并导致 backlog 环比近乎翻倍。换言之,Google 自己也在被算力卡脖子,没有余力把最稀缺资源全分给对手。 AI 行业正从「芯片紧缺」过渡到「推理算力紧缺」。即便头部厂商每年向数据中心投入数百亿美元,前沿模型推理所需的 HBM、加速卡、互连带宽依然供不应求,容量调度正在变成隐形的权力杠杆。自研模型未跑顺、又大量调用外部 API 的厂商,首当其冲。 对开发者,两个现实正在浮现:头部模型 API 不再是「开箱即用、永不饱和」的公共资源,容量规划需要前置到产品设计阶段;token 效率、推理压缩、小模型蒸馏等技术从「加分项」变成「必修课」——这正是 InfoKV、KV 缓存压缩、长上下文稀疏注意力等一批工作今年活跃的根因。 Google 给 Meta 的不是禁令,是一份算力紧缺的行业通知书。下半年竞争焦点,正从 benchmark 跑分转向谁能更稳地交付算力。