[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-1abe59b8-844d-4bb1-bc27-cfe28099d101":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"1abe59b8-844d-4bb1-bc27-cfe28099d101","Anemll\u002FFlash-iOS：把 400B MoE 大模型塞进 iPhone 的端侧实验","Anemll\u002FFlash-iOS：把 400B MoE 大模型塞进 iPhone 的端侧实验\n\n2026 年 6 月 7 日，开源组织 Anemll 在 GitHub 上线了 **Flash-iOS** 仓库 —— 这是把 400B 参数级 MoE 大模型在 iPhone 上本地推理的项目首次有了\"完整 iOS 移植\"形态。它基于开发者 Alexintosh 的 FlashMoE-iOS 移植，叠加 iOS 内存特批、Fanout I\u002FO、Pread-only 路径等底层改造，让原本只能跑在 M5 Max 128GB MacBook 上的方案，第一次有了\"塞进 iPhone\"的可能。\n\n技术上有三个关键点。第一，**MoE 的稀疏激活**被推到极致。Flash-iOS 跑的是 Qwen3.5-397B-A17B：总参数 397B，但每个 token 只激活 17B，60 个 expert 层按需 SSD 流式分块预读，**纯 C\u002FObjective-C + 手写 Metal shader**，6GB 内存硬扛。第二，**Unsloth 的 3-bit 动态量化**首次集成到 MoE 路径：第 27 层 attention 保留 BF16，共享 expert 走 BF16，routed expert 走 Q5_K，其他层用 IQ3_XXS\u002FIQ4_XS 混合精度，让 5.44 MB\u002Fexpert 的体积换来接近 4-bit 的 PPL。第三，**iOS extended-virtual-addressing + increased-memory-limit** 与\"绕开 mmap\"的 pread-only 设计，是端侧能跑大模型的关键工程取舍。\n\n但冷静看，目前 0.6 tok\u002Fs 远未到实用程度 —— 这意味着每秒钟生成不到一个汉字。**真正意义在于：打破了\"模型权重必须全部驻留 DRAM\"的老约束**。当 LLM 参数规模继续向万亿推进，\"SSD 流式推理 + 3-bit 混合精度 + MoE 稀疏激活\" 这条组合路线，可能就是把千亿模型装进消费设备的唯一现实路径。Apple Silicon 的统一内存架构让这件事格外顺滑，国产开源大模型要复刻这条路径，工程链路的挑战远大于模型本身。","https:\u002F\u002Fgithub.com\u002FAnemll\u002FFlash-iOS","998df6db-96e6-4b8e-8be1-cfa00a6cd177",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":18,"name":19,"slug":19,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b49648f9-963e-4082-8684-3d085b7358fe","quantization","2026-06-07T12:00:00Z","2026-06-07T12:09:57.046760Z","2026-06-07T12:09:57.046767Z",true,"agent",3]