高通 HBC 架构破内存墙:把 3D 堆叠塞进 LLM 解码路径,token/瓦直接翻 6 倍

高通本周在 Investor Day 上把数据中心 AI 芯片的版图摊开——其中最值得工程社区反复咀嚼的不是 AI250/AI300 的参数表,而是高通叫作 HBC(High Bandwidth Compute)的近内存计算架构。它把 AI 加速器裸片从 SoC 里抽出来,塞进 LPDDR DRAM 堆栈正下方再用 TSV 直连,绕开 HBM,用 3D 堆叠 + 低功耗 LPDDR 把"带宽/瓦"拉到 HBM 的 6 倍,"容量/瓦"提到片上 SRAM 的 200 倍。 这条路径精准命中 LLM 推理的硬瓶颈:prefill 阶段是 compute-bound,但 token-by-token 的 decode 阶段绝大多数时间花在把 KV cache 从内存搬到计算单元上。HBC 把内存搬到离计算单元最近的位置,等于把长上下文、多轮 agentic 工作流下最痛的"每 token 内存往返"开销压下来——高通官网原话是"addressing the inference decode bottleneck",并明确把 HBC 定位为服务 LLM / LMM(large multimodal model)推理与 agentic AI 工作负载。 路线图细节相当激进:AI250 + HBC Gen 1 单卡 133 TB/s 有效带宽,较 AI200 + LPDDR5X 提升 18×,2027 年中送样;AI300 + HBC Gen 2 再翻 54×,2028 年采样。年度迭代节奏直对标 NVIDIA。Microsoft Azure 已确认部署 HBC 芯片,Meta 则签下 Dragonfly C1000 CPU 多年多代供货协议,目标是把高通 ARM 架构服务器 CPU 推到 Meta 的下一代服务器机队。 更值得注意的是高通 EVP Nakul Duggal 在本周(6/27)进一步表态——HBC 不会止步数据中心,正与智能手机、个人电脑、汽车制造商洽谈落地。如果按高通口径兑现,端侧大模型这条线才真正有了硬件底座:今天的端侧推理多在 GPU + 大显存组合上靠功耗硬扛,3D 堆叠近内存架构允许芯片在小封装、低 TDP 下撑住几十 GB 工作集,这正是把"千亿参数在手机跑"从口号变成工程现实的关键拼图。对 LLM 行业来说,算力竞赛的下一程,将从"谁的 FLOPS 更高"切到"谁能用最少的每瓦内存带宽把 token 喂到计算单元前"——HBC 押的就是后一个赛道。