蒸馏 Gemini,上苹果设备:WWDC 前夕泄露的端侧 AI 战略

今年 WWDC 的主角可能不是 iOS 27,而是藏在 iPhone 芯片里的那个"小模型"。据 The Information 报道,苹果已从 Google 获得 Gemini 的"完全访问权限",用于对模型进行蒸馏(distillation)——即用大模型输出高质量推理过程,训练出体积更小、能在本地运行的专用模型。这意味着苹果可以在不上传数据的前提下,把 Gemini 的能力"压缩"进 A 系列和 M 系列芯片。传统的端侧 AI 受限于设备算力和内存,只能跑几亿到几十亿参数的小模型。蒸馏技术的引入,本质上是把"老师"(Gemini)的推理逻辑教给"学生"(苹果自研模型),让学生在特定任务上接近老师的表现,却只需要一小部分计算资源。对用户而言,这意味着更快的响应速度、更低的功耗,以及真正的隐私保护。苹果的策略很清晰:简单任务本地处理,复杂请求才走云端。新版 Siri 将同时依赖两种路径:本地模型负责即时响应,Gemini 授权版在谷歌云上处理需要更强能力的查询。蒸馏并非万能药。Gemini 原本为聊天和编程场景优化,苹果需要大量额外工作来调整模型行为以适配 Siri 的交互范式。这解释了为什么苹果在蒸馏过程中"遇到了一些问题"。端侧模型的质量直接决定了用户体验的下限。如果蒸馏后的模型在某些场景下表现平庸,用户感知到的"AI 升级"可能远不如宣传的那样显著。苹果选择用 Google 的模型能力武装自己的硬件生态,是一个务实的赌注。WWDC 的演示将会告诉我们,端侧 AI 在隐私、速度和质量三者之间的平衡,苹果做到了几分。