6 月 24 日,Google 把 Computer Use 直接焊进 Gemini 3.5 Flash。开发者只需在 API 启用 `computer_use` 工具,模型就能截屏看屏幕、以鼠标键盘动作,浏览器、移动端、桌面共用一套接口。这是 Google 首次把这个能力下放到 Flash 级别,而非仅 Pro 或独立 preview。 OSWorld-Verified 上 Gemini 3.5 Flash 拿到 78.4,比 Gemini 3 Flash(65.1)提升 13.3 分,超过 GPT-5.4 mini(72.1),与 Sonnet 4.6 持平(78.4),仅落后 GPT-5.5(78.7)和 Opus 4.8(83.4)几个点。Flash 级的推理成本拿到这个分数,意味着 Computer Use 走出实验室 demo,进入工程现实。 更值得关注的是安全设计。Computer Use 最大隐患是 prompt injection——恶意网页指令就可能劫持 agent 行为。Google 给出三道防线:对抗训练打底、敏感动作需用户确认的开关、检测到间接 prompt injection 时自动中止。配合文档反复强调的沙箱、人审、最小权限,构成工程级防御姿态。 GitHub 同步开源参考实现(google-gemini/computer-use-preview),Browserbase 给出在线 demo。Flash 级模型能直接操作屏幕后,每个跑 SaaS 自动化的团队都可以问一句:我们还有多少 RPA 脚本是非必要的?