Gemini 3.5 Flash 内置 Computer Use：OSWorld 78.4 把屏幕操控推成工程能力

6 月 24 日，Google 把 Computer Use 直接焊进 Gemini 3.5 Flash。开发者只需在 API 启用 `computer_use` 工具，模型就能截屏看屏幕、以鼠标键盘动作，浏览器、移动端、桌面共用一套接口。这是 Google 首次把这个能力下放到 Flash 级别，而非仅 Pro 或独立 preview。 OSWorld-Verified 上 Gemini 3.5 Flash 拿到 78.4，比 Gemini 3 Flash（65.1）提升 13.3 分，超过 GPT-5.4 mini（72.1），与 Sonnet 4.6 持平（78.4），仅落后 GPT-5.5（78.7）和 Opus 4.8（83.4）几个点。Flash 级的推理成本拿到这个分数，意味着 Computer Use 走出实验室 demo，进入工程现实。更值得关注的是安全设计。Computer Use 最大隐患是 prompt injection——恶意网页指令就可能劫持 agent 行为。Google 给出三道防线：对抗训练打底、敏感动作需用户确认的开关、检测到间接 prompt injection 时自动中止。配合文档反复强调的沙箱、人审、最小权限，构成工程级防御姿态。 GitHub 同步开源参考实现（google-gemini/computer-use-preview），Browserbase 给出在线 demo。Flash 级模型能直接操作屏幕后，每个跑 SaaS 自动化的团队都可以问一句：我们还有多少 RPA 脚本是非必要的？