Holo3.1 把 Computer Use Agent 拉进本地：FP8/NVFP4/Q4 三种量化让消费级 GPU 跑得动

H Company 6 月 2 日开源 Holo3.1——面向 Computer Use Agent 的视觉-动作模型，0.8B/4B/9B/35B-A3B 四种规格，基于 Qwen 微调。这是该领域首次提供 FP8、Q4 GGUF、NVFP4 三种量化权重，让电脑操作 Agent 第一次在消费级硬件上本地运行。 AndroidWorld 移动端 35B-A3B 从 67% 升到 79.3%，4B/9B 从 58% 升到 72%；跨框架新增 function-calling 支持；Holotab harness 相对 Holo3 提升 25% 以上。NVFP4 用 NVIDIA Model Optimizer W4A16 生成，DGX Spark 端到端步时从 6.8s 压到 3.3s；Q4 GGUF 瞄准 Apple Silicon。 Computer Use Agent 最大障碍是延迟和隐私。Holo3.1 用「小模型+激进量化」把能力下放到 4B/9B 档，35B-A3B 留给云端。它走的是和 frontier 模型相反的路：开源、量化、本地优先。这才是企业落地的真正起点。