Anemll/Flash-iOS：把 400B MoE 大模型塞进 iPhone 的端侧实验

Anemll/Flash-iOS：把 400B MoE 大模型塞进 iPhone 的端侧实验 2026 年 6 月 7 日，开源组织 Anemll 在 GitHub 上线了 **Flash-iOS** 仓库 —— 这是把 400B 参数级 MoE 大模型在 iPhone 上本地推理的项目首次有了"完整 iOS 移植"形态。它基于开发者 Alexintosh 的 FlashMoE-iOS 移植，叠加 iOS 内存特批、Fanout I/O、Pread-only 路径等底层改造，让原本只能跑在 M5 Max 128GB MacBook 上的方案，第一次有了"塞进 iPhone"的可能。技术上有三个关键点。第一，**MoE 的稀疏激活**被推到极致。Flash-iOS 跑的是 Qwen3.5-397B-A17B：总参数 397B，但每个 token 只激活 17B，60 个 expert 层按需 SSD 流式分块预读，**纯 C/Objective-C + 手写 Metal shader**，6GB 内存硬扛。第二，**Unsloth 的 3-bit 动态量化**首次集成到 MoE 路径：第 27 层 attention 保留 BF16，共享 expert 走 BF16，routed expert 走 Q5_K，其他层用 IQ3_XXS/IQ4_XS 混合精度，让 5.44 MB/expert 的体积换来接近 4-bit 的 PPL。第三，**iOS extended-virtual-addressing + increased-memory-limit** 与"绕开 mmap"的 pread-only 设计，是端侧能跑大模型的关键工程取舍。但冷静看，目前 0.6 tok/s 远未到实用程度 —— 这意味着每秒钟生成不到一个汉字。**真正意义在于：打破了"模型权重必须全部驻留 DRAM"的老约束**。当 LLM 参数规模继续向万亿推进，"SSD 流式推理 + 3-bit 混合精度 + MoE 稀疏激活" 这条组合路线，可能就是把千亿模型装进消费设备的唯一现实路径。Apple Silicon 的统一内存架构让这件事格外顺滑，国产开源大模型要复刻这条路径，工程链路的挑战远大于模型本身。