AI存储网络接口的速度之争
AI存储网络接口分为外部接口和内部接口。内部接口包括常见的PCIe,英伟达的NVLink,AMD 的Infinity Fabric和Intel的Xe Link等,目前内部接口还在铜缆互联的阶段,以后我们可以专门用文章讲一讲内部接口的光互联发展趋势。外部接口包括以太网、Infiniband、Fiber Channel、SAS,这些网络早已使用光模块进行互联,下面我们一起来以光模块的视角来探讨一下不同网络的应用。这里需要说明的是,由于光模块是透传数据,不在意网络类型。网络技术的最小单位帧则是以0和1的排列组合构成,光模块只根据主机的信号传输0和1。所以客户在购买光模块时,只需关注的是:工作速率,封装形式和传输距离。本文也是从这三个方面来讨论。为了便于记忆,本文提及的速率均取整数。
1.以太网
以太网的协议我们之前整理过,这里不在赘述。目前以太网最高速率800G和1.6T的协议还在制定中。根据大成鹏的客户的实际使用情况,目前AI算力使用是400G和200G为主,AI存储则以200G为主。400G封装形式为OSFP、QSFP-DD和QSFP112,200G封装形式为QSFP-DD和QSFP56,根据主机接口封装类型决定。传输距离:多模光纤100米使用多模光模块,单模光纤500m和2km使用单模光模块,机柜内部3米使用无源铜缆DAC,服务器/存储主机和TOR交换机互联使用有源光缆AOC在30米内。表1为以太网网络的速率类型发展。
序号 |
标识 |
速率 |
封装 |
速率*电信道数组合 |
1 |
FE |
100Mbps |
SFP |
100M*1 |
2 |
GE |
1Gbps |
SFP |
1G *1 |
3 |
10GE |
10Gbps |
SFP+ |
10G *1 |
4 |
25GE |
25Gbps |
SFP28 |
25G *1 |
5 |
40GE |
40Gbps |
QSFP+ |
10G *4 |
6 |
50GE |
50Gpbs |
SFP56 |
50G *1 |
7 |
100GE |
100Gpbs |
QSFP28 |
25G *4 |
8 |
200GE |
200Gpbs |
QSFP56 |
25G *8 |
QSFP-DD |
50G*4 |
|||
9 |
400GE |
400Gpbs |
QSFP-DD |
50G *8 |
OSFP |
100G *4 |
|||
QSFP112 |
100G*4 |
表 1
2.Infiniband
目前IB网络最高速率800G。根据大成鹏的客户的实际使用情况,目前AI算力使用是800G和400G为主,AI存储则以400G和200G为主。800G和400G的封装形式IB均指定为OSFP,200G的封装形式IB指定为QSFP56。传输距离:多模光纤100米使用多模光模块,单模光纤500m和2km使用单模光模块,机柜内部3米使用无源铜缆DAC,服务器/存储主机和TOR交换机使用有源光缆AOC在30米内。表2为IB网络的速率类型发展。
序号 |
速率标识 |
速率 |
封装 |
速率*电信道数组合 |
1 |
SDR |
每通道2.5Gbps |
CX4 |
2.5G *4 |
2 |
DDR |
每通道5Gbps |
CX4 |
5G *4 |
QSFP+ |
5G *4 |
|||
3 |
QDR |
每通道10Gbps |
QSFP+ |
10G*4 |
CXP |
10G*12 |
|||
4 |
FDR |
每通道14Gbps |
QSFP+ |
14G*4 |
CXP |
14G*12 |
|||
5 |
EDR |
每通道25Gbps |
QSFP28 |
25G*4 |
CXP2 |
25G*12 |
|||
6 |
HDR |
每通道50Gbps |
QSFP56 |
50G*4 |
7 |
NDR |
每通道100Gbps |
OSFP |
100G*4 |
8 |
XDR |
每通道200Gbps |
OSFP |
200G*4 |
表 2
3.Fiber Channel
按照之前的规划,第8代128GFC应该会在2021年间完成标准制定,但实际上推出时间一延再延,直到2024年的今天,仍未实际问世。目前最高速率为2018年制定完成的第7代64GFC,但是应用进展依旧十分缓慢。根据大成鹏的客户反馈情况,目前AI存储不会使用FC网络,国内设备主流还停留在16GFC和32GFC,速率跟不上算力需求。16GFC和32GFC使用的封装为SFP28。传输距离:主要为多模光纤100米使用多模光模块。表3为FC网络的速率类型发展。
序号 |
标识 |
速率 |
封装 |
速率*电信道数组合 |
1 |
1GFC |
1Gbps |
SFP |
1G*1 |
2 |
2GFC |
2Gbps |
SFP |
2G*1 |
3 |
4GFC |
4Gbps |
SFP |
4G*1 |
4 |
8GFC |
8Gbps |
SFP+ |
8G*1 |
5 |
16GFC |
14Gbps |
SFP+ |
14G*1 |
6 |
32GFC |
28Gbps |
SFP28 |
28G*1 |
7 |
64GFC |
56Gbps |
QSFP+ |
14G*4 |
表 3
4.SAS
SAS可以作为存储设备内部接口,也可以作为外部接口。目前SAS接口最新规格是2017年制订的SAS-4,也就是24G SAS。依照原本的路线图,下一步的发展应该是带宽加倍的SAS-5,即48G SAS。但负责制定规格的SCSI贸易协会(SCSI Trade Association,STA),在2023年底,提出异于原本路线图的规画,放弃48G SAS这条提高带宽的路线,改为沿用既有的24G SAS物理层,搭配强化上层协议可靠性、安全性与效率的24G+ SAS,但是按照光模块的传输原理,SAS-4和SAS-3的数据传输并无差异。SAS作为外部接口互联的封装为Mini SAS,并且主要采用的是有源光缆AOC和无源铜缆DAC的产品形态。表4为SAS网络的速率类型发展。
序号 |
标识 |
速率 |
封装 |
速率*电信道数组合 |
1 |
SAS-1 |
每通道 |
Mini SAS |
6G*4 |
2 |
SAS-2 |
每通道 |
Mini SAS |
12G*4 |
3 |
SAS-3 |
每通道 |
Mini SAS |
24G*4 |
4 |
SAS-4 |
每通道 |
Mini SAS |
24G*4 |
表 4
综合以上可以直观的看到,在AI存储领域,FC和SAS网络接口已经远远的赶不上以太网和IB。目前仍旧是以太网和IB的直接竞争,现阶段在IB优秀的RDMA能力下,已经取得技术的领先优势。针对IB的崛起,以太网制定了RoCE协议,把InfiniBand的RDMA传输架构移植到以太网络中,使得RoCE兼具RDMA的低延迟与以太网的低成本特色。但是其RDMA在拥堵控制、负载平衡等方面,仍有一系列不足。所以去年成立的超以太网联盟需要制定新的协议取代现有RoCE协议,透过新的传输层来改善雍塞管理,并减少延迟等,超以太网联盟计划于今年三季度推出新的标准。