Anthropic 招揽 OpenAI 芯片元老：「Perplexity per Picojoule」开启大模型能效新范式

Anthropic 近日从 OpenAI 挖走自研芯片项目"002 号员工" Clive Chan，他在 LinkedIn 上的职位描述只有一句："perplexity per picojoule"——把模型预测能力与单位能耗放进同一个优化目标。这句话折射出大模型评估范式的迁移。传统指标 FLOPS、tokens/sec、MMLU 关注"算得快"，而 perplexity per picojoule 把能耗摆到一等公民位置。背后有三股力：规模撞上电力墙——GPT-5.4、Claude Mythos 在 256K 上下文下推理能耗已逼近数据中心承载上限；硬件-软件协同设计回归——Anthropic 评估自研 ASIC 加上 Chan 熟稔 OpenAI-Broadcom 自研芯片项目；端侧 AI 倒逼能效优先——Anemll、Ollama MLX、WWDC 押注的端侧模型让"每焦耳 token 数"成为产品级指标。 perplexity per joule 类指标 2025 年已在 arXiv 出现（d-Matrix 的 roofline 建模与硬件协同设计论文），并非 Anthropic 首创。但当顶级实验室把它写进招聘 JD 并组建专门团队，意味着它已从学术讨论进入工业级落地。未来模型选择标准可能从"MMLU 多少分"或"每千 token 成本"转向"固定功耗预算下能跑多准"，反向推动稀疏 MoE、低秩近似、4/2/1.58-bit 量化与投机解码的协同进化。可以预期，2026 下半年起，"perplexity per joule" 会像当年的 cost-per-token 一样，成为云厂商比较 LLM 推理性价比的新基准。