PAW 把 LLM 变成「编译器」：0.6B 小模型在 MacBook 上跑出 32B 性能

arXiv 2607.02512 昨天发布了一项值得所有关注本地 LLM 部署的工程师注意的工作：Program-as-Weights（PAW），把「用 LLM 解决模糊函数」从「按次调用 API」变成「一次性编译、本地复用」的新范式。团队提出的 fuzzy-function programming 针对一类常见痛点：日志告警判断、JSON 修复、搜索结果重排——这些规则无法写死、又不值得为每次调用付出 GPT-4/Claude 级别的成本和延迟。PAW 的思路是反向操作：把自然语言描述的「模糊函数」编译成参数高效 adapter，挂在一个 0.6B 的 Qwen3 解释器上。最关键的一组数字：0.6B 解释器 + 编译出的 adapter，匹配了直接 prompt Qwen3-32B 的性能，但推理内存只有 1/50，并且在 MacBook M3 上跑出 30 tok/s。架构是 4B 编译 + 0.6B 解释的「分而治之」——4B 编译器训练在 1000 万样本的 FuzzyBench 上，一次性把函数定义烧成 adapter，0.6B 解释器冻结权重只负责执行。LLM 的角色由此从「逐题求解器」变成「工具构造器」：每个函数只需付一次编译开销，之后任意调用都是本地、离线、可复现的。 PAW 的真正意义不在「又一个小模型」，而在于把 LLM 的「一次性智慧」沉淀为「可重用资产」。对边缘部署、隐私敏感场景（医疗、法律日志）、成本敏感业务尤其有价值。当然限制也明确：每个函数仍需先编译一次，且 adapter 质量受 4B 编译器和 FuzzyBench 覆盖范围制约。代码与数据集已开源。