6 月 23 日,Multiverse Computing 与 NVIDIA 联合发布开源推理模型 Pulsar 16B:基于 Nemotron 3 Nano(Hybrid Mamba2-Transformer + MoE,31.6B 总参 / 3.5B 激活),用 CompactifAI 配合 NVIDIA Model Optimizer 与 Megatron Bridge,把模型压到 16.15B / 3.1B 激活,无需重训,只移除已训练网络里的"数学冗余"。 关键不是参数减半,而是基准几乎没掉:AIME 2025 87.22、GPQA-Diamond 71.41,与 30B 基线只差 0.1 分;IFBench 领先 14 分,BFCL-v4 领先 11 分,比 gpt-oss-20B 高 11–15 分。 部署侧:单卡 Blackwell 32 并发时 FP8 吞吐 4808 tok/s,比基线高 43%,TTFT 从 2.18s 砍到 1.24s;RULER 在 100K NIAH 检索近乎完美对齐未压缩版。 更深信号:压缩已从"训练后微调"转向"结构化数学剪枝",不破坏 prompt 与 tool-call 接口、保留整个 Nemotron 架构。Pulsar 16B 以 Apache 2.0、BF16/FP8/NVFP4 三档精度同时上架 Hugging Face,是开源社区少见的"工业级压缩 + 真开源 + 跨精度"组合。