使用光模块Breakout功能减少AI训练中断故障
根据Meta Llama 3.1万卡集群公开的论文,Llama 3.1 在为期 54 天的训练期间,经历了共 466 次任务中断,其中8.4%是Network原因,包括交换机和网络线缆故障。另据IDC的报告,“根据华为数据中心评估,1000k+GPU的稳定训练时间不超过 2.8天。”,“22%的中断是网络故障导致的。“其中由于光模块故障造成的AI训练中断的比例是更低的。但是,作为光模块来说,是否还有继续优化的空间?下面我们来探讨一下如何使用光模块Breakout功能减少AI训练中断故障。
图1 Meta Llama 3.1万卡集群故障率一览
首先,我们以大成鹏通信用于AI网络互联的400G QSFP112 SR4为例来看一看光模块的内部架构。
图2 400G QSFP112 SR4内部架构
由上图可以清晰的看出,整个光模块分为4个光通道(4*100G)并对应有4个电通道(4*100G,),其中任何一路通道出现故障,光模块将告警信息上报给主机,告诉主机哪个通道有问题,主机会关断整个端口,也就是说其他3路工作正常的通道数据转发也会被中断,如图3所示。于是就产生了由传统光模块因单通道故障导致的训练中断问题。
图 3
根据大成鹏通信的经验,传统光模块的年失效率达4‰,其中,单通道故障约占90%。对此,大成鹏通信光模块支持通过Breakout功能,实现单通道故障数据转发不中断,有效解决了传统光模块因单通道故障导致的训练中断问题。简单解释为,把一个400G QSFP112 SR4光模块的4个通道看成4个100G光模块,当单个通道故障时,仅所在通道停止工作,其他通道仍可正常进行数据转发,如图4所示。由此,可以大幅减少因单通道故障导致AI训练中断故障。
图4
结合上面我们的讨论,还可以在AI基础网络组网上提出更灵活的组网,对通道进行分组,比如800G QSFP-DD SR8模块,8个通道(8*100G),我们可以通过Breakout功能,分为4*100G+4*100G两组进行组网,也可以2*100G+2*100G+2*100G+2*100G四组进行组网。这也是有源光缆AOC和无源铜缆DAC分支线缆产品能够实现的原理。