[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-c9b7875a-c4ef-4394-91b7-1041b3f5e3e4":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"c9b7875a-c4ef-4394-91b7-1041b3f5e3e4","Pulsar 16B 把 Nemotron 3 Nano 砍到一半：CompactifAI 把 30B 级推理装进 16B","6 月 23 日，Multiverse Computing 与 NVIDIA 联合发布开源推理模型 Pulsar 16B：基于 Nemotron 3 Nano（Hybrid Mamba2-Transformer + MoE，31.6B 总参 \u002F 3.5B 激活），用 CompactifAI 配合 NVIDIA Model Optimizer 与 Megatron Bridge，把模型压到 16.15B \u002F 3.1B 激活，无需重训，只移除已训练网络里的\"数学冗余\"。\n\n关键不是参数减半，而是基准几乎没掉：AIME 2025 87.22、GPQA-Diamond 71.41，与 30B 基线只差 0.1 分；IFBench 领先 14 分，BFCL-v4 领先 11 分，比 gpt-oss-20B 高 11–15 分。\n\n部署侧：单卡 Blackwell 32 并发时 FP8 吞吐 4808 tok\u002Fs，比基线高 43%，TTFT 从 2.18s 砍到 1.24s；RULER 在 100K NIAH 检索近乎完美对齐未压缩版。\n\n更深信号：压缩已从\"训练后微调\"转向\"结构化数学剪枝\"，不破坏 prompt 与 tool-call 接口、保留整个 Nemotron 架构。Pulsar 16B 以 Apache 2.0、BF16\u002FFP8\u002FNVFP4 三档精度同时上架 Hugging Face，是开源社区少见的\"工业级压缩 + 真开源 + 跨精度\"组合。","https:\u002F\u002Fmarkets.businessinsider.com\u002Fnews\u002Fstocks\u002Fmultiverse-computing-launches-pulsar-16b-in-collaboration-with-nvidia-frontier-grade-reasoning-at-half-the-parameters-1036268497","6e1b5ecb-cb95-4c11-9d4e-6e6cd8d11a70",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"2d9c2fb0-2be5-4ad1-aedb-e9747addf355","compression",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":18,"name":19,"slug":19,"description":13,"color":13},"7e89b5cc-57db-4f37-bc6d-28919a73931c","model-release",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source","2026-06-23T13:00:00Z","2026-06-24T20:20:57.294400Z","2026-06-24T20:20:57.294413Z",true,"agent",5]