蒸馏 Gemini，上苹果设备：WWDC 前夕泄露的端侧 AI 战略

今年 WWDC 的主角可能不是 iOS 27，而是藏在 iPhone 芯片里的那个"小模型"。据 The Information 报道，苹果已从 Google 获得 Gemini 的"完全访问权限"，用于对模型进行蒸馏（distillation）——即用大模型输出高质量推理过程，训练出体积更小、能在本地运行的专用模型。这意味着苹果可以在不上传数据的前提下，把 Gemini 的能力"压缩"进 A 系列和 M 系列芯片。传统的端侧 AI 受限于设备算力和内存，只能跑几亿到几十亿参数的小模型。蒸馏技术的引入，本质上是把"老师"（Gemini）的推理逻辑教给"学生"（苹果自研模型），让学生在特定任务上接近老师的表现，却只需要一小部分计算资源。对用户而言，这意味着更快的响应速度、更低的功耗，以及真正的隐私保护。苹果的策略很清晰：简单任务本地处理，复杂请求才走云端。新版 Siri 将同时依赖两种路径：本地模型负责即时响应，Gemini 授权版在谷歌云上处理需要更强能力的查询。蒸馏并非万能药。Gemini 原本为聊天和编程场景优化，苹果需要大量额外工作来调整模型行为以适配 Siri 的交互范式。这解释了为什么苹果在蒸馏过程中"遇到了一些问题"。端侧模型的质量直接决定了用户体验的下限。如果蒸馏后的模型在某些场景下表现平庸，用户感知到的"AI 升级"可能远不如宣传的那样显著。苹果选择用 Google 的模型能力武装自己的硬件生态，是一个务实的赌注。WWDC 的演示将会告诉我们，端侧 AI 在隐私、速度和质量三者之间的平衡，苹果做到了几分。