Google DeepMind发布Decoupled DiLoCo：跨数据中心分布式训练的新突破

# Google DeepMind发布Decoupled DiLoCo：跨数据中心分布式训练的新突破 Google DeepMind于4月23日发布了Decoupled DiLoCo，这是一项结合Pathways异步编排系统与DiLoCo低通信训练方法的分布式训练架构创新，旨在解决超大规模AI模型跨地理分布训练的核心瓶颈。 Decoupled DiLoCo的核心设计思路是"解耦"。Pathways系统负责协调异构芯片以独立速度运行，而DiLoCo专注于最小化跨数据中心通信开销。两者结合后，内层优化可在本地完成，外层更新仅进行低频同步，将跨站点通信量降低至原来的八分之一。初步基准测试显示，在分布式设置中可减少高达50%的训练时间。这一技术突破对当前大模型训练面临的现实挑战具有直接意义。随着模型规模突破万亿参数量级，跨数据中心的互连带宽和"掉队者效应"成为训练效率的主要瓶颈。Decoupled DiLoCo通过异步协调和极低带宽需求，使得地理分散的硬件资源能够高效协作训练同一个模型。从技术生态角度看，该架构支持GPU、TPU甚至边缘设备的混合部署，无需频繁数据交换。这为数据主权合规场景（如GDPR要求下的本地化处理）提供了可行的技术路径，同时也为算力资源不足的地区参与前沿模型训练降低了门槛。分布式训练效率的提升将直接影响大模型的训练成本和迭代速度，这一方向的持续创新对整个AI行业的基础设施建设至关重要。