英伟达 BioNeMo Agent Toolkit 把十年生命科学库塞进 AI Agent：TransformerEngine + FP8 让基础模型第一次跑得起规模

2026 年 6 月 23 日，英伟达正式推出 NVIDIA BioNeMo Agent Toolkit，把过去十年沉淀的生命科学库、工具和开放模型打包给 AI Agent 和科研人员使用。找证据、跨论文推理、跑计算实验、推荐下一步这条科学发现链路，第一次有了官方端到端支撑。 BioNeMo 围绕数据、模型、库与工具、训练与定制、优化推理与部署五个支柱搭建。这次 Agent Toolkit 把 ESM2、AMPLIFY、Llama 3、Mixtral、Qwen3、CodonFM、Geneformer 等开放模型整合进 Agent 工作流，研究者可以直接调用这些模型跑蛋白结构预测、基因功能注释、密码子优化、分子生成等任务，不用每个任务重新搭推理栈。技术细节上，BioNeMo Recipes 大量复用 TransformerEngine 层和 megatron-FSDP：ESM2 与 Llama 3 在 BF16、FP8、THD、MXFP8、NVFP4、Context Parallel 等组合下都有官方 benchmark 路径，覆盖从单卡原型到多节点训练。Mixtral 这种 MoE 架构也拿到 TE 加速支持——科学推理不再被通用 LLM 推理栈的参数墙卡住。更值得注意的是，英伟达把一贯的 GPU 优化栈正式下放到生命科学社区：FP8 与 NVFP4 的低精度训练、CodonFM 自研模型的官方 Recipe、Hugging Face Accelerate、PyTorch Lightning、原生 PyTorch 全兼容，开发者不用切换框架就能把现有 pipeline 拉到 Hopper 与 Blackwell 上做 scale-out。 AI for Science 过去几年一直被模型通用但科研流程特异卡住。BioNeMo Agent Toolkit 给出了一个工程化答案：把训练和推理优化做到极致，把开放模型做成即插即用的积木，让 Agent 弥合通用 LLM 能力与实验室真实工作流之间的鸿沟——这或许比单纯发布一个更大的科学大模型更有实际意义。