爱芯元智 Pulsar2 6.0 + axllm：把端侧 LLM 工具链拼成云上同款

爱芯元智在 6 月 28 日开发者生态沙龙上，把自家 NPU 上的端侧 LLM 工具链一次性补完。核心是 Pulsar2 6.0 编译工具链和 axllm 推理框架的双剑合璧。 Pulsar2 6.0 的最大变化是模型库升级：原生支持 Qwen3.5、Gemma4、MiniCPM-V 4.6、MiniCPM5-1B、Qwen3-ASR、Qwen3-TTS 等主流开源端侧模型，覆盖语言、多模态、语音三条线；芯片侧补齐 AX637、AX615、AX88x0 全系列。哪块板子想跑哪个模型，工具链这边全配齐。 axllm 是这次更关键的发布。它把 AX8850/AX620E/AX637 系列的 LLM 推理基建重构了一遍，目标只有一个——OpenAI API 兼容。原本写云上 OpenAI SDK 的代码，换个 Base URL 和 API Key 就能直接跑在端侧 NPU 上，业务逻辑零改动。配套的 ax-remote-infer 解决了 NPU 调试最痛苦的部分：以前每改一次模型，都要把 .axmodel 文件 scp 到板子上重跑。ax-remote-infer 让 PC 端 Python 通过局域网直接驱动板子推理，迭代体验对齐云上 GPU。组合起来的效果：开发者可以在 AX8850 上搭一个本地 Agent BOX，VLM + ASR + TTS 全本地化，最高砍掉 40% 云端 token 成本。再叠加 QAT.Ultralytics 把 YOLO 检测的低比特量化精度提上去，从感知到理解到行动，闭环全在一颗国产 NPU 上。这步棋的本质，是国产 AI 芯片第一次把"端侧 LLM 工具链"做成对开发者友好的工程化产物，而不是一份 benchmark 跑分表。端侧 LLM 的入门门槛被压到云上同款水准，剩下只是场景选择的工程问题。