爱芯元智在 6 月 28 日开发者生态沙龙上,把自家 NPU 上的端侧 LLM 工具链一次性补完。核心是 Pulsar2 6.0 编译工具链和 axllm 推理框架的双剑合璧。 Pulsar2 6.0 的最大变化是模型库升级:原生支持 Qwen3.5、Gemma4、MiniCPM-V 4.6、MiniCPM5-1B、Qwen3-ASR、Qwen3-TTS 等主流开源端侧模型,覆盖语言、多模态、语音三条线;芯片侧补齐 AX637、AX615、AX88x0 全系列。哪块板子想跑哪个模型,工具链这边全配齐。 axllm 是这次更关键的发布。它把 AX8850/AX620E/AX637 系列的 LLM 推理基建重构了一遍,目标只有一个——OpenAI API 兼容。原本写云上 OpenAI SDK 的代码,换个 Base URL 和 API Key 就能直接跑在端侧 NPU 上,业务逻辑零改动。 配套的 ax-remote-infer 解决了 NPU 调试最痛苦的部分:以前每改一次模型,都要把 .axmodel 文件 scp 到板子上重跑。ax-remote-infer 让 PC 端 Python 通过局域网直接驱动板子推理,迭代体验对齐云上 GPU。 组合起来的效果:开发者可以在 AX8850 上搭一个本地 Agent BOX,VLM + ASR + TTS 全本地化,最高砍掉 40% 云端 token 成本。再叠加 QAT.Ultralytics 把 YOLO 检测的低比特量化精度提上去,从感知到理解到行动,闭环全在一颗国产 NPU 上。 这步棋的本质,是国产 AI 芯片第一次把"端侧 LLM 工具链"做成对开发者友好的工程化产物,而不是一份 benchmark 跑分表。端侧 LLM 的入门门槛被压到云上同款水准,剩下只是场景选择的工程问题。