IBM Granite 4.1：Dense架构回归，8B参数挑战32B MoE性能

2026年4月，LLM江湖的主角无疑是大规模MoE架构——Llama 4 Scout、DeepSeek V4、Qwen3.6系列，个个都是千亿参数起步。但IBM偏偏在这个节点发布了纯Dense路线的Granite 4.1。 Granite 4.1是一个Dense decoder-only模型家族，提供3B、8B、30B三种规格。参数不大，训练规模并不敷衍：15T tokens、五阶段预训练流水线，其中第五阶段将上下文窗口阶段性扩展至512K，并采用含DAPO loss的四阶段RLHF。更值得关注的是8B版本的效率——它能匹配上一代32B MoE模型的性能，说明Dense架构并非天然低效，只要训练足够精良。30B版本可部署在单张H100上，对于需要私有化部署的企业用户，这个组合很有吸引力。真正的差异在于数据治理。IBM在预训练数据阶段就嵌入了GRC评估，这一步用户看不到，但对金融、医疗等受监管行业意义重大。不过，工程严谨性只是门槛，生产稳定性才是最终验证。