什么样的智算网络方案，才是客户真正想要的？

随着AI热潮的不断发展，业界已经充分意识到：除了算力卡之外，智算网络也是决定算力集群性能的重要因素之一。智算网络就像算力集群内部的“神经脉络”。如果它不能高效工作，哪怕肌肉和大脑再发达，整体的能力都会受到限制。

这些年，围绕智算网络技术方案，业界逐渐形成了两大主流方向：一种是以“GPU + Infiniband（IB）”为代表的私有方案流派；还有一种，是以“魔改”高性能以太网（RoCEv2）为代表的开放方案流派。与此同时，国内算力需求持续快速增长，国产算力生态加速崛起，形态更加多元，出现了更多不同品牌的 GPU、网卡和整机系统。在这种多元化背景下，行业对于“更开放、更易演进、可持续”的网络底座需求也变得愈发迫切。

正因如此，“魔改以太网”开放方案的阵营正在不断扩大。这条技术路线不仅保持了成本、生态方面的固有优势，在性能、可靠性、兼容性等关键指标上持续逼近乃至赶超IB。对于国内目前如火如荼的智算基础设施建设来说，这无疑是一个重大利好。

前段时间，新华三推出了一个很有特色的创新架构智算方案，名字叫做DDC，吸引了整个行业的关注。这个方案，就属于刚才说的开放方案流派。

说到DDC，可能很多专业读者会首先想到业界最早提出的“分布式解耦机框（Disaggregated Distributed Chassis）”。如果它是DDC 1.0，那么新华三推出的DDC架构，则是在DDC 1.0基础上的演进升级，全称叫Diversified Dynamic-Connectivity，多元动态联接。它同样属于分布式解耦机框的技术路线，但引入了多项关键技术创新，在传输性能、连接规模、开放解耦、运维简化等方面都有了巨大的改进提升。

接下来，我们就详细看看，新华三的DDC方案，到底有哪些黑科技。

● 高带宽+大规模

新华三的DDC方案包括NCP（网络处理单元）和NCF（网络交换单元）两层，通过Spine-Leaf叶脊架构进行全连接。NCP相当于业务线卡，NCF相当于交换网板，都是独立工作的盒型形态。

方案对应到新华三的具体产品，是H3C S12500AI系列交换机。NCF有一款H3C S12500AI-NCFN。NCP有两款，分别是H3C S12500AI-18EP20EP-NCPN、H3C S12500AI-36DH20EP-NCPN。

产品的外型和端口数如下图所示：

NCP和NCF的端口都支持800G，完全可以满足当前主流网卡形态的接入需求，带宽妥妥够。

规模方面，也很容易计算。单POD组网（DDC单集群）下，800G信元端口可以分为两个400G，也就是支持40个NCF和256个NCP，总共支持256（接入设备）*36（接入端口）=9216个端口（400G）。如果是800G的话，就是4608个端口。

这个端口数量，足够支撑国内绝大多数的智算集群应用。如果要搞万卡集群，就可以采用多POD组网（DDC多集群），最大可支持8个POD，也就是73728个400G端口（或36864个800G端口）。

● 零拥塞+零波动

接下来，我们来看最关键的无损传输。也就是说，当智算网络处于高流量负荷状态的时候，会不会出现丢包、抖动和拥塞。

众所周知，AIGC大模型训练业务对网络丢包极为敏感，轻则导致吞吐效率降低，重则将使训练任务中断。无论是哪一种，都会严重影响算力集群的训练周期和成本。

新华三DDC方案是如何确保实现零波动、零拥塞的呢？

答案就是以信元转发为核心的负载均衡机制，以及基于“VoQ（Virtual Output Queueing，虚拟输出队列）+Credit”的确定性拥塞控制机制。

大模型训练场景的流量特点，概括来说，就是大而且杂。因为训练包括多种方式（例如DP数据并行、PP流水并行、TP张量并行、EP专家并行），每种方式的流量模型不一样。有的带宽高（低），有的流数多（少），还经常会高并发、突发。

传统的ECMP（等价多路径路由）等负载均衡机制根本无法应对这种复杂流量特征，流量容易被哈希到同一链路，产生拥塞。

新华三DDC方案的做法，是网卡（GPU）侧的数据流进入NCP后，切割为等长字节的信元。然后，将这些信元动态、均衡地喷洒到内部交换网络（NCF）的所有链路上。在信元到达出口NCP时，再进行重组。

这就是以信元转发为核心的负载均衡机制。

再看看确定性拥塞控制机制。

下图，是传统非DDC的RoCE方案的拥塞案例，基于PCF（优先级流控制）+ECN（显性拥塞通知）机制。

具体来说，当Spine1到Leaf9之间的链路（黄色线）出现拥塞时，Spine1会逐层向上反压，向Leaf1发PFC帧。这就会导致Leaf1和Spine1之间端口的相关队列全部被压住。这就会影响Spine1到其它Leaf（例如绿色线）的流量。这就是线头阻塞问题。

在DDC方案里，就不存在这种情况。

DDC方案的VoQ，是在入口设备上基于不同出端口维护的队列。当Spine1到Leaf9之间的链路出现拥塞时，只影响基于Leaf9的VoQ队列。其它VoQ队列（例如Leaf1到Leaf8）并不受影响。这就避免了线头阻塞的问题，实现了精准反压。

这有点像餐厅排号，大桌、中桌、小桌分开排队，互不影响。

VoQ解决了线头阻塞问题。那么确定性的拥塞控制，又是如何实现的呢？这就需要Credit授权控制转发机制的配合。

可以将Credit理解为令牌。当入向要往出向进行转发时，会先发授权请求。当出向的带宽可以保证报文转发的时候，出口NCP才会给入口NCP发Credit授权回应，允许流量推送。

Credit有点像餐厅的叫号系统。只有叫号了，才允许进入，就可以避免拥塞。

在以信元转发为核心的负载均衡机制和基于“Credit + VoQ”的确定性拥塞控制机制的共同加持下，新华三DDC方案能够实现链路利用率100%的负载均衡效果，且充分吸收突发流量，彻底消除DDC网络内部的拥塞。

经权威机构测试验证，新华三DDC方案的带宽利用率丝毫不亚于InfiniBand网络。

在8台服务器64张英伟达H20 GPU卡，进行NCCL-Test对比测试。All Reduce场景下，DDC性能与IB基本持平。16G数据时，DDC比IB提升了0.27%。All-to-All场景下，256M以下数据对比IB无提升效果。1G以上数据时，DDC性能提升明显。16G数据时，比IB提升了21.74%。这说明，数据量越大，DDC的优势越明显。

● 网卡解耦+多元异构

新华三DDC作为分布式机框，实现了“物理上的分体、逻辑上的整体”。它就像一个“超级交换机”，前面提到的信元切割、重组，还有VoQ+Credit技术，都是在其内部完成的，不需要网卡的参与。

也就是说，DDC实现了与网卡和GPU的完全解耦。

此外，DDC基于信元的拥塞管理和负载均衡是独立于IP转发域的。DDC对不同的流量模型和特征都不敏感。设备接入DDC后，网卡侧也不需要进行专门的调优。

这就意味着，基于DDC架构的智算网络，可以接入多元算力，兼容性和灵活性更强。对任意流量模型，DDC方案都可以达到最佳负载均衡效果。

正如本文开头所说，能够承接多元算力生态，是目前国内发展智算网络技术的刚性需求。新华三DDC方案可以很好地兼容各个厂商的算卡，给用户组建多元异构算力集群创造了条件，也可以帮助用户降低成本开支。这为国内AI智算集群建设提供了一个更理想的选项。

● 极简部署+极简运维

新华三DDC方案需要联接海量设备和异构算力，业务流量大，流量特征复杂。这给整个系统的运维带来了很大的挑战。

对此，新华三推出了AD-DC智算版智能管控分析平台。该平台预设了DDC开局模板，具备一键自动上线功能，设备即插即用，无需复杂调优，从而大幅简化部署流程，可以实现天级快速交付。

通过平台，还可以对整个DDC网络进行可视化管理，直接掌控全网架构。平台也可以自动检测设备间的链路状态，如果发现断连、错连等异常，就会及时告警，实现可视化定位。

AD-DC智算版智能管控分析平台引入了AI算法进行运维。系统会实时采集设备端口流量、Pause帧等关键指标，结合AI算法进行深度分析，精准识别网络拥塞、异常流量等潜在故障。

在芯片丢包、光模块故障等方面，AD-DC都有快速诊断能力，可以大幅降低系统运行风险，减少对训练任务造成的影响。

▉ 开放生态，共建产业标准

最后，我们再来看看DDC的生态。

行业里的智算网络方案分为封闭（私有闭源）和开放两种。业界有一些可提供GPU和网络方案的厂商，就会通过集合通信库（CCL）将二者进行捆绑，迫使客户只能选择整套解决方案。

新华三在设计DDC架构之初，就选择了“生态开放”的路线。

DDC的控制平面使用标准的BGP EVPN协议，不但实现网元之间自协商、自组网，降低了配置复杂程度，更能支持不同厂商的NCP/NCF实现异构组网。

这几年，新华三一直坚持这个路线没动摇。2024年，他们携手合作伙伴，发布了OSF（Open Schedule Fabric，开放调度网络）协议网络架构，分别在需求场景分析、方案框架定义、技术方案落地等三个方面提交了多篇标准议案，得到了IETF组织的认可。这个架构将调度式网络架构与传统以太网络结合，能够达到均衡利用网络资源、故障快速切换等优化目标。

正如前面所说，国内的智算建设具有多元化的特点。所以，开放生态显然更适合当下的发展趋势。往小了说，开放生态对用户有利，降低了使用智算算力的技术难度，也减少了成本投入。往大了说，我们国家智算基础设施的建设布局，以及整个智算产业和生态的健康发展，都会随之受益。

▉ 结语

好啦，写到这里，相信大家对新华三的DDC方案已经有了充分的了解。

智算中心的总投资中，智算网络投资占比仅为10%。10%的智算网络投资将会撬动30%以上算力效能提升。这是一个非常划算的买卖。

这充分说明，在智算时代，网络已不再是单纯的“联接”。它与计算深度融合，可以发挥“算力×联接”的倍增效应。

新华三开了一个好头，通过DDC架构创新，解决了智算网络在超大规模、极致性能与生态适配方面的难题，不仅为国产化方案树立了标杆，也为全球用户提供了新的选项。

文章转载自微信公众号：鲜枣课堂

什么样的智算网络方案，才是客户真正想要的？

作者鲜枣课堂

作者鲜枣课堂

相关文章

世界杯背后的这家云厂商，为什么突然聊起了"Harness"？

ATG（地空通信），真的能成功吗？

看完WAIC的机器人，我来聊聊真实感受

发表回复取消回复

什么样的智算网络方案，才是客户真正想要的？

作者鲜枣课堂

作者 鲜枣课堂

相关文章

世界杯背后的这家云厂商，为什么突然聊起了"Harness"？

ATG（地空通信），真的能成功吗？

看完WAIC的机器人，我来聊聊真实感受

发表回复 取消回复

作者鲜枣课堂

发表回复取消回复