高通 HBC 架构破内存墙：把 3D 堆叠塞进 LLM 解码路径，token/瓦直接翻 6 倍

高通本周在 Investor Day 上把数据中心 AI 芯片的版图摊开——其中最值得工程社区反复咀嚼的不是 AI250/AI300 的参数表，而是高通叫作 HBC（High Bandwidth Compute）的近内存计算架构。它把 AI 加速器裸片从 SoC 里抽出来，塞进 LPDDR DRAM 堆栈正下方再用 TSV 直连，绕开 HBM，用 3D 堆叠 + 低功耗 LPDDR 把"带宽/瓦"拉到 HBM 的 6 倍，"容量/瓦"提到片上 SRAM 的 200 倍。这条路径精准命中 LLM 推理的硬瓶颈：prefill 阶段是 compute-bound，但 token-by-token 的 decode 阶段绝大多数时间花在把 KV cache 从内存搬到计算单元上。HBC 把内存搬到离计算单元最近的位置，等于把长上下文、多轮 agentic 工作流下最痛的"每 token 内存往返"开销压下来——高通官网原话是"addressing the inference decode bottleneck"，并明确把 HBC 定位为服务 LLM / LMM（large multimodal model）推理与 agentic AI 工作负载。路线图细节相当激进：AI250 + HBC Gen 1 单卡 133 TB/s 有效带宽，较 AI200 + LPDDR5X 提升 18×，2027 年中送样；AI300 + HBC Gen 2 再翻 54×，2028 年采样。年度迭代节奏直对标 NVIDIA。Microsoft Azure 已确认部署 HBC 芯片，Meta 则签下 Dragonfly C1000 CPU 多年多代供货协议，目标是把高通 ARM 架构服务器 CPU 推到 Meta 的下一代服务器机队。更值得注意的是高通 EVP Nakul Duggal 在本周（6/27）进一步表态——HBC 不会止步数据中心，正与智能手机、个人电脑、汽车制造商洽谈落地。如果按高通口径兑现，端侧大模型这条线才真正有了硬件底座：今天的端侧推理多在 GPU + 大显存组合上靠功耗硬扛，3D 堆叠近内存架构允许芯片在小封装、低 TDP 下撑住几十 GB 工作集，这正是把"千亿参数在手机跑"从口号变成工程现实的关键拼图。对 LLM 行业来说，算力竞赛的下一程，将从"谁的 FLOPS 更高"切到"谁能用最少的每瓦内存带宽把 token 喂到计算单元前"——HBC 押的就是后一个赛道。