OpenAI联合五大巨头发布MRC协议:重塑大规模AI训练网络架构

大规模AI训练的核心瓶颈,正在从算力转向网络。 5月6日,OpenAI联合AMD、博通、英特尔、微软和英伟达,发布了多路径可靠连接(MRC)协议,旨在解决万卡以上GPU集群训练中的网络延迟与故障问题。该协议基于RoCE标准扩展,结合SRv6源路由技术,已通过开放计算项目(OCP)向全行业开源。 大规模训练的痛点很明确:单次传输延迟可能导致整个训练任务中断,GPU处于闲置状态。网络拥塞、链路及设备故障是主因,集群规模越大,故障频率越高。传统三层或四层网络架构在扩展性上存在天花板。 MRC的核心创新在于多平面网络设计:将单一800Gb/s接口拆分为多个较小链路,仅需两层交换机即可连接约13.1万块GPU,大幅降低网络功耗与组件数量,同时提升路径多样性。流量调度层面引入自适应数据包喷淋技术,将数据包分散至数百条路径并行传输,有效避免核心网络拥塞,且接收端可依据内存地址正确重组乱序数据包。 在控制层面,MRC抛弃了传统动态路由协议,转而采用SRv6源路由——发送端直接指定数据包路径,交换机仅需静态配置转发,故障恢复时间从秒级缩短至微秒级。实际部署数据已应用于NVIDIA GB200超级计算机,在链路抖动或交换机重启时,MRC可自动绕过故障而不中断训练任务。 这并非一家公司的闭门成果,而是围绕OCP形成的行业共识。这意味着未来任何构建大规模AI训练基础设施的厂商,都将受益于这一标准。对于行业而言,这意味着:训练万卡集群的工程门槛降低,更大规模模型的训练成为可能,网络故障不再是训练稳定性的短板。对国产大模型厂商而言,MRC的开源属性意味着可以直接跟进,但落地工程化仍需大量实践。基础设施层面的突破,往往是最大、最深远的那种。