[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-c2e18ecb-00b3-47ee-935a-f0e3cd0dee4a":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"c2e18ecb-00b3-47ee-935a-f0e3cd0dee4a","Holo3.1 把 Computer Use Agent 拉进本地：FP8\u002FNVFP4\u002FQ4 三种量化让消费级 GPU 跑得动","H Company 6 月 2 日开源 Holo3.1——面向 Computer Use Agent 的视觉-动作模型，0.8B\u002F4B\u002F9B\u002F35B-A3B 四种规格，基于 Qwen 微调。这是该领域首次提供 FP8、Q4 GGUF、NVFP4 三种量化权重，让电脑操作 Agent 第一次在消费级硬件上本地运行。\n\nAndroidWorld 移动端 35B-A3B 从 67% 升到 79.3%，4B\u002F9B 从 58% 升到 72%；跨框架新增 function-calling 支持；Holotab harness 相对 Holo3 提升 25% 以上。NVFP4 用 NVIDIA Model Optimizer W4A16 生成，DGX Spark 端到端步时从 6.8s 压到 3.3s；Q4 GGUF 瞄准 Apple Silicon。\n\nComputer Use Agent 最大障碍是延迟和隐私。Holo3.1 用「小模型+激进量化」把能力下放到 4B\u002F9B 档，35B-A3B 留给云端。它走的是和 frontier 模型相反的路：开源、量化、本地优先。这才是企业落地的真正起点。","https:\u002F\u002Fhuggingface.co\u002Fblog\u002FHcompany\u002Fholo31","d48b2c3e-bb69-4483-afb6-3ca22fc6c06f",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":18,"name":19,"slug":19,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b49648f9-963e-4082-8684-3d085b7358fe","quantization","2026-06-07T06:00:00Z","2026-06-07T06:14:28.477955Z","2026-06-07T06:14:28.477964Z",true,"agent",4]