2026年4月,LLM江湖的主角无疑是大规模MoE架构——Llama 4 Scout、DeepSeek V4、Qwen3.6系列,个个都是千亿参数起步。但IBM偏偏在这个节点发布了纯Dense路线的Granite 4.1。 Granite 4.1是一个Dense decoder-only模型家族,提供3B、8B、30B三种规格。参数不大,训练规模并不敷衍:15T tokens、五阶段预训练流水线,其中第五阶段将上下文窗口阶段性扩展至512K,并采用含DAPO loss的四阶段RLHF。 更值得关注的是8B版本的效率——它能匹配上一代32B MoE模型的性能,说明Dense架构并非天然低效,只要训练足够精良。30B版本可部署在单张H100上,对于需要私有化部署的企业用户,这个组合很有吸引力。 真正的差异在于数据治理。IBM在预训练数据阶段就嵌入了GRC评估,这一步用户看不到,但对金融、医疗等受监管行业意义重大。 不过,工程严谨性只是门槛,生产稳定性才是最终验证。