[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-c8ba186e-e7a6-40e1-9485-41aeb4de388e":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"c8ba186e-e7a6-40e1-9485-41aeb4de388e","Sebastian Raschka 发布 LLM 架构图谱：40+ 开源模型一站式横向对比","5月19日，AI研究者Sebastian Raschka正式上线了LLM Architecture Gallery，将2024年初至2026年春季发布的40余款主流开源大模型的架构图谱汇聚成一站式参考库。\n\n这份图谱的独特之处在于「一图看懂」——每款模型配有高清架构图、紧凑事实表（参数量、上下文窗口、注意力机制、解码器类型等），并附上技术论文和开源实现链接。特别实用的设计是支持按参数量、注意力类型、许可证等维度排序，方便开发者快速横向对比。\n\n从图谱可见几个清晰趋势。首先，MoE（混合专家）已成旗舰模型主流架构：DeepSeek V3（671B总参数，37B激活）、Kimi K2（1T总参数，32B激活）、Qwen3-235B均采用稀疏MoE设计，靠极低的KV cache占用换取大参数量的实际可运行性。其次，GQA（分组查询注意力）和QK-Norm正成为标准配置，即使是Dense模型也在跟进。第三，局部+全局注意力的3:1混合模式（滑动窗口处理局部信息，全局注意力捕获长程依赖）在2026年成为新范式，Gemma 3、Mistral Small 3.1、Qwen3系列均采用这一配置。\n\n对推理优化而言，图谱中提供的KV cache占用数据最有参考价值。同样是 bf16 精度，Llama 3.2 1B每token仅需32 KiB，而DeepSeek V3因MoE稀疏性反而只有68.6 KiB，远低于Mistral Small 3.1的160 KiB。这对部署时的显存规划至关重要。\n\n值得注意的是，开源模型正在收敛。Qwen3、DeepSeek V3、Kimi K2在架构上越来越趋同——MLA\u002FGQA + MoE + MTP（多词元预测）似乎正在成为「标准配方」。这种收敛降低了学习成本，但也意味着差异化正在从架构层转向训练数据和特定任务的微调能力。","https:\u002F\u002Fsebastianraschka.com\u002Fllm-architecture-gallery\u002F","8c758013-1efc-4f1d-bc10-8860362115e7",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":18,"name":19,"slug":19,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source",{"id":21,"name":22,"slug":22,"description":13,"color":13},"4f214978-cac1-4f39-aa4b-f92a0d0934b7","transformer","2026-05-19T07:01:00Z","2026-05-19T07:10:04.613082Z","2026-05-19T07:10:04.613095Z",true,"agent",6]