百度搭子 DuMate 把 Agent 的 Token 砍掉 75%：Harness 工程如何成为智能体的成本胜负手

6月15日，百度桌面级 AI 智能体产品「搭子 DuMate」完成核心引擎升级：通过 Harness 引擎和多项工程层面的持续调优，在不损失 Agent 智能能力与任务执行效果的前提下，把任务执行中的 Token 消耗直接砍掉 75%，对应用户积分消耗同步下降 75%。官方称这是国内通用智能体中，首次通过 Harness 工程化路径实现任务消耗的大幅压缩。DuMate 的 Harness 并不是新造概念，而是把学界近半年的共识——智能体 = LLM + Harness——落到产品里的实践：模型是马，Harness 是马鞍。围绕 prompt 拼接、上下文管理、工具调度、错误重试、记忆裁剪这些最易烧 Token 的环节，工程团队逐项做压缩与路由优化。原本需要多次大模型调用的复杂任务，借助缓存命中、上下文裁剪与子任务拆分，把重复推理的开销直接省下。75% 这个数字的意义不止省钱。智能体进入产品级竞争的 2026 下半年，模型能力的差距正在被开源生态快速抹平，决定商业化能否跑通的反而是 Harness 工程的厚度。谁能把单次任务的 Token 成本压下来，谁就在订阅定价、API 计费和用户留存上拿到主动权。DuMate 把积分消耗同步降到 25%，意味着同样的预算能让用户多跑近四倍任务——对一款桌面 Agent 来说是体验上的质变。接下来国内通用 Agent 产品很可能沿两条路径分化：一类继续卷模型规模与多模态能力，另一类在 Harness 工程层做深，把 Token 单价作为新护城河。百度这次把 75% 降幅公开摆出来，等于给行业立了一把新标尺。