Canonical 近日在 Ubuntu Discourse 公开了一款名为 Myna 的桌面级语音转录功能,计划随今年 10 月发布的 Ubuntu 26.10 上线。这并非又一个云端调用 Whisper API 的前端包装——Myna 把整个推理链路搬到了本地,由「Canonical Inference Snap」沙盒承载模型权重,Speech Orchestrator 管理会话,Audio Adapter 在音频进入模型前完成降噪与分块,整套流程运行结束后不向磁盘写入任何音频。 把 AI 推理硬塞进 Snap 沙盒里,是这次最值得说的工程决策。Snap 自带的 confinement 与 AppArmor 策略恰好解决了桌面端运行任意权重模型的两大隐患:模型越权访问麦克风之外的资源、用户态被恶意 ONNX/GGUF 文件攻陷。Canonical 选择自建 Inference Snap 而不是直接复用裸的 llama.cpp / whisper.cpp,说明 Linux 发行版厂商已经意识到「本地 LLM」不是简单的模型量化问题,而是必须和 OS 安全模型对齐的系统工程。 功能边界上的克制同样值得注意。Myna 第一版明确不支持密码输入、持续监听、跨语种翻译——这与今年早些时候微软 Recall 因默认开启录制引发的反弹形成对照。Canonical 用功能窄化的方式换取用户的隐私可解释性:装好模型后完全离线、音频即时丢弃、用户对工作流有完整控制权。 放到更大的趋势里看,过去半年 Linux 桌面、Chrome 浏览器、Apple Intelligence 都在争夺「端侧模型宿主」这个位置。Ubuntu 用 Snap 沙盒补齐最后一块拼图,证明本地 AI 的真正门槛不在算力,而在发行版级别的可信执行环境。这条路如果走通,「云 LLM + 浏览器」这套默认范式会被慢慢撕开一道口子。