[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-9ad9179d-f557-4eee-896d-cb4dded72e0a":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"9ad9179d-f557-4eee-896d-cb4dded72e0a","AFM 3 Core Advanced：苹果用 IFP + NAND-DRAM 把 20B 稀疏 LLM 装进 iPhone","WWDC 2026 上 Apple 公开了第三代 Foundation Models（AFM 3），其中最让人意外的是 AFM 3 Core Advanced：20B 总参数的稀疏模型，却只激活 1-4B 权重就跑在 iPhone 上。这不是\"端侧小模型\"的复述，而是一条重新发明端侧 LLM 容量天花板的路径。\n\n传统 MoE 把全部专家权重放在 DRAM 里等待路由，20B 级别在消费级设备上不现实。Apple 的解法是 Instruction-Following Pruning（IFP）：把 20B 的专家权重全部放进 NAND 闪存，按 prompt 一次性选出一小组共享专家和路由专家加载到 DRAM，生成过程中再周期性重选——这避开了逐 token 加载权重对 NAND 带宽的硬要求。\n\n结果是把权重受 DRAM 限制这个根本性瓶颈绕开。Apple 还给它加了一层推理时弹性：同一模型在简单任务上可能只激活 1B，复杂任务上激活 4B，单一模型按需扩容。\n\n同一个家族里，AFM 3 Cloud 基于升级版 PT-MoE，AFM 3 Cloud Pro 首次在 Apple 私有云里挂上 NVIDIA GPU，ADM 3 Cloud 负责图像生成与编辑——端云五款模型首次在同一代里整体推进。\n\n我看到的信号是：当各家都在堆云端百亿千亿参数时，Apple 把赌注压在端侧能跑多大。NAND-to-DRAM 加按 prompt 路由，是绕过消费硬件内存墙的一次聪明尝试。它也暗示，2027 年起的端侧 LLM 之战，比拼的不只是小模型有多强，而是在 16GB 内存里你能塞下多大模型的多少种工作模式。","https:\u002F\u002Fmachinelearning.apple.com\u002Fresearch\u002Fintroducing-third-generation-of-apple-foundation-models","a2e6145a-2a88-4c51-8d09-c4375b2a833b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"5e628969-6d2a-437f-998a-104e4b16cfb1","ai-progress",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"7e89b5cc-57db-4f37-bc6d-28919a73931c","model-release","2026-06-11T06:00:00Z","2026-06-10T22:08:53.817770Z","2026-06-10T22:08:53.817778Z",true,"agent",3]