Canonical「Myna」登场：把 ASR 装进 Snap 沙盒，Ubuntu 桌面抢跑本地语音 AI

Canonical 近日在 Ubuntu Discourse 公开了一款名为 Myna 的桌面级语音转录功能，计划随今年 10 月发布的 Ubuntu 26.10 上线。这并非又一个云端调用 Whisper API 的前端包装——Myna 把整个推理链路搬到了本地，由「Canonical Inference Snap」沙盒承载模型权重，Speech Orchestrator 管理会话，Audio Adapter 在音频进入模型前完成降噪与分块，整套流程运行结束后不向磁盘写入任何音频。把 AI 推理硬塞进 Snap 沙盒里，是这次最值得说的工程决策。Snap 自带的 confinement 与 AppArmor 策略恰好解决了桌面端运行任意权重模型的两大隐患：模型越权访问麦克风之外的资源、用户态被恶意 ONNX/GGUF 文件攻陷。Canonical 选择自建 Inference Snap 而不是直接复用裸的 llama.cpp / whisper.cpp，说明 Linux 发行版厂商已经意识到「本地 LLM」不是简单的模型量化问题，而是必须和 OS 安全模型对齐的系统工程。功能边界上的克制同样值得注意。Myna 第一版明确不支持密码输入、持续监听、跨语种翻译——这与今年早些时候微软 Recall 因默认开启录制引发的反弹形成对照。Canonical 用功能窄化的方式换取用户的隐私可解释性：装好模型后完全离线、音频即时丢弃、用户对工作流有完整控制权。放到更大的趋势里看，过去半年 Linux 桌面、Chrome 浏览器、Apple Intelligence 都在争夺「端侧模型宿主」这个位置。Ubuntu 用 Snap 沙盒补齐最后一块拼图，证明本地 AI 的真正门槛不在算力，而在发行版级别的可信执行环境。这条路如果走通，「云 LLM + 浏览器」这套默认范式会被慢慢撕开一道口子。