AFM 3 Core Advanced：苹果用 IFP + NAND-DRAM 把 20B 稀疏 LLM 装进 iPhone

WWDC 2026 上 Apple 公开了第三代 Foundation Models（AFM 3），其中最让人意外的是 AFM 3 Core Advanced：20B 总参数的稀疏模型，却只激活 1-4B 权重就跑在 iPhone 上。这不是"端侧小模型"的复述，而是一条重新发明端侧 LLM 容量天花板的路径。传统 MoE 把全部专家权重放在 DRAM 里等待路由，20B 级别在消费级设备上不现实。Apple 的解法是 Instruction-Following Pruning（IFP）：把 20B 的专家权重全部放进 NAND 闪存，按 prompt 一次性选出一小组共享专家和路由专家加载到 DRAM，生成过程中再周期性重选——这避开了逐 token 加载权重对 NAND 带宽的硬要求。结果是把权重受 DRAM 限制这个根本性瓶颈绕开。Apple 还给它加了一层推理时弹性：同一模型在简单任务上可能只激活 1B，复杂任务上激活 4B，单一模型按需扩容。同一个家族里，AFM 3 Cloud 基于升级版 PT-MoE，AFM 3 Cloud Pro 首次在 Apple 私有云里挂上 NVIDIA GPU，ADM 3 Cloud 负责图像生成与编辑——端云五款模型首次在同一代里整体推进。我看到的信号是：当各家都在堆云端百亿千亿参数时，Apple 把赌注压在端侧能跑多大。NAND-to-DRAM 加按 prompt 路由，是绕过消费硬件内存墙的一次聪明尝试。它也暗示，2027 年起的端侧 LLM 之战，比拼的不只是小模型有多强，而是在 16GB 内存里你能塞下多大模型的多少种工作模式。