Holo3.1 把 Computer Use Agent 拉进本地:FP8/NVFP4/Q4 三种量化让消费级 GPU 跑得动

H Company 6 月 2 日开源 Holo3.1——面向 Computer Use Agent 的视觉-动作模型,0.8B/4B/9B/35B-A3B 四种规格,基于 Qwen 微调。这是该领域首次提供 FP8、Q4 GGUF、NVFP4 三种量化权重,让电脑操作 Agent 第一次在消费级硬件上本地运行。 AndroidWorld 移动端 35B-A3B 从 67% 升到 79.3%,4B/9B 从 58% 升到 72%;跨框架新增 function-calling 支持;Holotab harness 相对 Holo3 提升 25% 以上。NVFP4 用 NVIDIA Model Optimizer W4A16 生成,DGX Spark 端到端步时从 6.8s 压到 3.3s;Q4 GGUF 瞄准 Apple Silicon。 Computer Use Agent 最大障碍是延迟和隐私。Holo3.1 用「小模型+激进量化」把能力下放到 4B/9B 档,35B-A3B 留给云端。它走的是和 frontier 模型相反的路:开源、量化、本地优先。这才是企业落地的真正起点。