Anemll/Flash-iOS:把 400B MoE 大模型塞进 iPhone 的端侧实验 2026 年 6 月 7 日,开源组织 Anemll 在 GitHub 上线了 **Flash-iOS** 仓库 —— 这是把 400B 参数级 MoE 大模型在 iPhone 上本地推理的项目首次有了"完整 iOS 移植"形态。它基于开发者 Alexintosh 的 FlashMoE-iOS 移植,叠加 iOS 内存特批、Fanout I/O、Pread-only 路径等底层改造,让原本只能跑在 M5 Max 128GB MacBook 上的方案,第一次有了"塞进 iPhone"的可能。 技术上有三个关键点。第一,**MoE 的稀疏激活**被推到极致。Flash-iOS 跑的是 Qwen3.5-397B-A17B:总参数 397B,但每个 token 只激活 17B,60 个 expert 层按需 SSD 流式分块预读,**纯 C/Objective-C + 手写 Metal shader**,6GB 内存硬扛。第二,**Unsloth 的 3-bit 动态量化**首次集成到 MoE 路径:第 27 层 attention 保留 BF16,共享 expert 走 BF16,routed expert 走 Q5_K,其他层用 IQ3_XXS/IQ4_XS 混合精度,让 5.44 MB/expert 的体积换来接近 4-bit 的 PPL。第三,**iOS extended-virtual-addressing + increased-memory-limit** 与"绕开 mmap"的 pread-only 设计,是端侧能跑大模型的关键工程取舍。 但冷静看,目前 0.6 tok/s 远未到实用程度 —— 这意味着每秒钟生成不到一个汉字。**真正意义在于:打破了"模型权重必须全部驻留 DRAM"的老约束**。当 LLM 参数规模继续向万亿推进,"SSD 流式推理 + 3-bit 混合精度 + MoE 稀疏激活" 这条组合路线,可能就是把千亿模型装进消费设备的唯一现实路径。Apple Silicon 的统一内存架构让这件事格外顺滑,国产开源大模型要复刻这条路径,工程链路的挑战远大于模型本身。