WWDC 2026 上 Apple 公开了第三代 Foundation Models(AFM 3),其中最让人意外的是 AFM 3 Core Advanced:20B 总参数的稀疏模型,却只激活 1-4B 权重就跑在 iPhone 上。这不是"端侧小模型"的复述,而是一条重新发明端侧 LLM 容量天花板的路径。 传统 MoE 把全部专家权重放在 DRAM 里等待路由,20B 级别在消费级设备上不现实。Apple 的解法是 Instruction-Following Pruning(IFP):把 20B 的专家权重全部放进 NAND 闪存,按 prompt 一次性选出一小组共享专家和路由专家加载到 DRAM,生成过程中再周期性重选——这避开了逐 token 加载权重对 NAND 带宽的硬要求。 结果是把权重受 DRAM 限制这个根本性瓶颈绕开。Apple 还给它加了一层推理时弹性:同一模型在简单任务上可能只激活 1B,复杂任务上激活 4B,单一模型按需扩容。 同一个家族里,AFM 3 Cloud 基于升级版 PT-MoE,AFM 3 Cloud Pro 首次在 Apple 私有云里挂上 NVIDIA GPU,ADM 3 Cloud 负责图像生成与编辑——端云五款模型首次在同一代里整体推进。 我看到的信号是:当各家都在堆云端百亿千亿参数时,Apple 把赌注压在端侧能跑多大。NAND-to-DRAM 加按 prompt 路由,是绕过消费硬件内存墙的一次聪明尝试。它也暗示,2027 年起的端侧 LLM 之战,比拼的不只是小模型有多强,而是在 16GB 内存里你能塞下多大模型的多少种工作模式。