OpenAI联合五大巨头发布MRC协议：重塑大规模AI训练网络架构

大规模AI训练的核心瓶颈，正在从算力转向网络。 5月6日，OpenAI联合AMD、博通、英特尔、微软和英伟达，发布了多路径可靠连接（MRC）协议，旨在解决万卡以上GPU集群训练中的网络延迟与故障问题。该协议基于RoCE标准扩展，结合SRv6源路由技术，已通过开放计算项目（OCP）向全行业开源。大规模训练的痛点很明确：单次传输延迟可能导致整个训练任务中断，GPU处于闲置状态。网络拥塞、链路及设备故障是主因，集群规模越大，故障频率越高。传统三层或四层网络架构在扩展性上存在天花板。 MRC的核心创新在于多平面网络设计：将单一800Gb/s接口拆分为多个较小链路，仅需两层交换机即可连接约13.1万块GPU，大幅降低网络功耗与组件数量，同时提升路径多样性。流量调度层面引入自适应数据包喷淋技术，将数据包分散至数百条路径并行传输，有效避免核心网络拥塞，且接收端可依据内存地址正确重组乱序数据包。在控制层面，MRC抛弃了传统动态路由协议，转而采用SRv6源路由——发送端直接指定数据包路径，交换机仅需静态配置转发，故障恢复时间从秒级缩短至微秒级。实际部署数据已应用于NVIDIA GB200超级计算机，在链路抖动或交换机重启时，MRC可自动绕过故障而不中断训练任务。这并非一家公司的闭门成果，而是围绕OCP形成的行业共识。这意味着未来任何构建大规模AI训练基础设施的厂商，都将受益于这一标准。对于行业而言，这意味着：训练万卡集群的工程门槛降低，更大规模模型的训练成为可能，网络故障不再是训练稳定性的短板。对国产大模型厂商而言，MRC的开源属性意味着可以直接跟进，但落地工程化仍需大量实践。基础设施层面的突破，往往是最大、最深远的那种。