Google DeepMind发布Decoupled DiLoCo:跨数据中心分布式训练的新突破

# Google DeepMind发布Decoupled DiLoCo:跨数据中心分布式训练的新突破 Google DeepMind于4月23日发布了Decoupled DiLoCo,这是一项结合Pathways异步编排系统与DiLoCo低通信训练方法的分布式训练架构创新,旨在解决超大规模AI模型跨地理分布训练的核心瓶颈。 Decoupled DiLoCo的核心设计思路是"解耦"。Pathways系统负责协调异构芯片以独立速度运行,而DiLoCo专注于最小化跨数据中心通信开销。两者结合后,内层优化可在本地完成,外层更新仅进行低频同步,将跨站点通信量降低至原来的八分之一。初步基准测试显示,在分布式设置中可减少高达50%的训练时间。 这一技术突破对当前大模型训练面临的现实挑战具有直接意义。随着模型规模突破万亿参数量级,跨数据中心的互连带宽和"掉队者效应"成为训练效率的主要瓶颈。Decoupled DiLoCo通过异步协调和极低带宽需求,使得地理分散的硬件资源能够高效协作训练同一个模型。 从技术生态角度看,该架构支持GPU、TPU甚至边缘设备的混合部署,无需频繁数据交换。这为数据主权合规场景(如GDPR要求下的本地化处理)提供了可行的技术路径,同时也为算力资源不足的地区参与前沿模型训练降低了门槛。 分布式训练效率的提升将直接影响大模型的训练成本和迭代速度,这一方向的持续创新对整个AI行业的基础设施建设至关重要。