大家看,这是什么?——
没错!这就是大名鼎鼎的华为昇腾384超节点!
在刚刚召开的WAIC 2025上,华为现场展示了一套昇腾384完整真机,成为全场的关注焦点,吸引了大量观众围观拍照。
█ 昇腾384:补齐AI算力短板,重塑全球竞争格局
昇腾384是华为今年重点打造的AI算力神器。它集成了384颗昇腾910C NPU和192颗鲲鹏CPU,单超节点算力高达300 Pflops,是英伟达NVL72系统的1.7倍。
AI的全领域竞争要素,是算力、模型和应用。
模型方面,今年年初DeepSeek横空出世,凭借其卓越的性能和创新的算法设计,证明国产大模型可以和国外先进模型平起平坐。
应用方面,是我们的强项,国内各个垂直行业的AI应用已经呈现出百花齐放的局面。
这些年来,我们发展AI最主要的短板,其实是算力。
华为昇腾384超节点的推出,补齐了单芯片算力不足的短板。打破了国际巨头在AI算力领域的垄断,实现了对国外领先竞品的性能超越,重塑全球AI算力基础设施竞争格局。
█ 昇腾384,为什么要用光互联?
“华为昇腾384超节点一共有384颗NPU芯片,而英伟达NVL72有72颗GPU芯片。昇腾384的系统性能比NVL72更强,是不是有点“以多欺少”的嫌疑?”
华为昇腾384超节点的最大特点,是依靠华为强大的光互联能力,在单芯片能力不足的情况下,通过系统能力打败了NVL72。
NVL72采用的是铜连接,GPU之间采用高速差分信号线进行通信,传输的是电信号。
英伟达为什么要反其道而行之,走回了铜连接的老路?
并不是英伟达不想用光连接,而是他们未能很好地解决光互联在超节点内部落地所遇到的问题,包括光模块可靠性问题、功耗问题等。
铜连接的信号衰减很大,对于单机架内部的短距离连接需求,勉强可以应对。对于跨机架的长距离连接需求,就无法满足了。
同样的问题,对于通信设备商出身的华为来说,就不是问题了。
华为从上世纪90年代就开始搞光通信,如今已经是世界领先的光通信解决方案提供商,拥有丰富的从技术到工程的实践经验。
正因为华为在光互联技术上有足够的实力和自信,在昇腾384上果断采用了光互联技术,通过新型高速总线构建全互连拓扑结构,实现了从芯片到节点的全栈硬件协同。
在光互联的加持下,昇腾384的卡间通信不存在任何瓶颈。384颗芯片直接纳入同一逻辑计算单元,形成了矩阵级的算力供给模式。
█ 星云光模块,昇腾384光互联能力的后盾
昇腾384的光互联,采用的是华为海思专门面向智算中心光互联场景打造的星云光模块。
星云光模块
相比传统光模块,星云光模块在性能、可靠性和可用性方面,都进行了全面加强。
● 高性能:
华为发挥自身在芯片领域的技术积累,采用创新性的外延设计,实现了更小的RMS谱宽,能够实现更远的传输距离和更高的传输速率。
● 高可靠性:
光模块的可靠性,对超节点和AI算力集群的工作效率有很大影响。失效率高会导致训练和推理任务的频繁中断,增加训推周期和成本。
为了降低光模块的失效率,华为在光芯片制造环节进行了优化,引入AI对工艺缺陷进行监控和拦截。
华为星云光模块通过系统协同设计,简化了光模块的架构,同时也降低了光模块的功耗。
光模块的工作温度也是影响可靠性的一个关键要素。
星云光模块的“冰鉴”散热架构,将光模块壳体的接触热阻降低50%。大幅降低光模块的失效率,提升了系统可靠性。
● 高可用性:
智算网络中存在海量的光链路。传统的光链路,无法进行可视化运维。
光链路在施工时,可能存在端口脏污、链路虚接等问题,会影响训练稳定性,降低训练效率。并且排查这些问题,往往需要数天的时间。
针对这个痛点,华为推出了星云智检(StarSensor),可以实现对光模块端口、光链路健康状态的可视化诊断,对端口脏污、链路虚接进行快速检测定位、快速排障,处理时间从天级缩短到分钟级。
古语有云:“以己之长,攻彼之短。以己之短,消彼之长。”
华为利用自己在光互联技术上的优势,大胆进行创新,率先通过光互联实现了超大规模超节点算力的超越。
这给全球算力产业的未来发展提供了新的思路。摩尔定律逐渐放缓,通过先进光互联技术打造更大规模算力集群,进一步提升算力利用率,是大势所趋。
值得一提的是,英伟达一直在通过投资并购弥补自己在光互联上的短板。相信随着时间的推移,他们最终也会走回到光互联这条路上。
文章转载自微信公众号:鲜枣课堂