PAW 把 LLM 变成「编译器」:0.6B 小模型在 MacBook 上跑出 32B 性能

arXiv 2607.02512 昨天发布了一项值得所有关注本地 LLM 部署的工程师注意的工作:Program-as-Weights(PAW),把「用 LLM 解决模糊函数」从「按次调用 API」变成「一次性编译、本地复用」的新范式。 团队提出的 fuzzy-function programming 针对一类常见痛点:日志告警判断、JSON 修复、搜索结果重排——这些规则无法写死、又不值得为每次调用付出 GPT-4/Claude 级别的成本和延迟。PAW 的思路是反向操作:把自然语言描述的「模糊函数」编译成参数高效 adapter,挂在一个 0.6B 的 Qwen3 解释器上。 最关键的一组数字:0.6B 解释器 + 编译出的 adapter,匹配了直接 prompt Qwen3-32B 的性能,但推理内存只有 1/50,并且在 MacBook M3 上跑出 30 tok/s。架构是 4B 编译 + 0.6B 解释的「分而治之」——4B 编译器训练在 1000 万样本的 FuzzyBench 上,一次性把函数定义烧成 adapter,0.6B 解释器冻结权重只负责执行。LLM 的角色由此从「逐题求解器」变成「工具构造器」:每个函数只需付一次编译开销,之后任意调用都是本地、离线、可复现的。 PAW 的真正意义不在「又一个小模型」,而在于把 LLM 的「一次性智慧」沉淀为「可重用资产」。对边缘部署、隐私敏感场景(医疗、法律日志)、成本敏感业务尤其有价值。当然限制也明确:每个函数仍需先编译一次,且 adapter 质量受 4B 编译器和 FuzzyBench 覆盖范围制约。代码与数据集已开源。