Pulsar 16B 把 Nemotron 3 Nano 砍到一半：CompactifAI 把 30B 级推理装进 16B

6 月 23 日，Multiverse Computing 与 NVIDIA 联合发布开源推理模型 Pulsar 16B：基于 Nemotron 3 Nano（Hybrid Mamba2-Transformer + MoE，31.6B 总参 / 3.5B 激活），用 CompactifAI 配合 NVIDIA Model Optimizer 与 Megatron Bridge，把模型压到 16.15B / 3.1B 激活，无需重训，只移除已训练网络里的"数学冗余"。关键不是参数减半，而是基准几乎没掉：AIME 2025 87.22、GPQA-Diamond 71.41，与 30B 基线只差 0.1 分；IFBench 领先 14 分，BFCL-v4 领先 11 分，比 gpt-oss-20B 高 11–15 分。部署侧：单卡 Blackwell 32 并发时 FP8 吞吐 4808 tok/s，比基线高 43%，TTFT 从 2.18s 砍到 1.24s；RULER 在 100K NIAH 检索近乎完美对齐未压缩版。更深信号：压缩已从"训练后微调"转向"结构化数学剪枝"，不破坏 prompt 与 tool-call 接口、保留整个 Nemotron 架构。Pulsar 16B 以 Apache 2.0、BF16/FP8/NVFP4 三档精度同时上架 Hugging Face，是开源社区少见的"工业级压缩 + 真开源 + 跨精度"组合。