2025年,国产计算集群的爆发式突破,成为全球AI技术竞备下的一声有力回响。前有华为昇腾384总算力突破300 PFlops,达到NVL72系统的1.7倍;近有中科曙光scaleX640超节点二次提速,以630 PFlops算力规模的翻倍式增长,反超赛道头车多个身位。


在单卡性能落后于人、NV卡成为科技制裁工具的背景下,中国智算正以集群式创新重新站稳脚跟,并从计算生态、能效、成本等方面寻得更广阔的战略纵深。



从昇腾384到曙光scaleX640,国产超节点跑出加速度


继年中华为推出昇腾384以来,国产超节点在“遥遥领先英伟达”呼声中成为热门概念。事实证明,外界仍然低估了国产计算集群的爆发力。就在最近的乌镇世界互联网大会上,全栈国产化的曙光scaleX640超节点浮出水面,各项性能指标均已完成新一轮跃迁。


根据业内曝出的性能数据,曙光scaleX640不仅在总算力规模上实现倍数增幅,加速卡集成数量首次达到业内最高的单机柜640卡,另外还从HBM、PUE值、算力密度、片间互联总带宽等维度,实现了综合性能的全面赶超。此外,还可以通过双scaleX640超节点组成千卡级计算单元。



以其对标384超节点来看,scaleX640的HBM总容量为81.9TB,约为前者的1.7倍;HBM和片间互联总带宽均达到前者的1.9倍;在算力密度方面,同样单机柜架构下两大超节点前后提升了惊人的20倍;此外,受益于曙光液冷技术的领先性,超节点能效也获得显著提升。


国产计算集群的大步快跑,对美国芯片巨头形成了明显的赶超压力。依照英伟达最新战略动向,黄仁勋近期再次强调了“系统优先”策略,意在通过完整的AI基础设施协同设计打破物理定律限制,在后摩尔时代继续保持领先优势。


不过,尽管国产AI芯片单卡性能处于相对劣势,但在集群式算力新赛道上,计算产业上下游涉及诸多环节,系统构成极为复杂,这为中国算力换道超车提供了更多机会。


可以看到,无论是此前的昇腾384,抑或更进一步的曙光scaleX640,都在极力推进计算系统高效协同,并在算力集群规模和集成度上展现出更大潜力。这也意味着,在国产厂商问鼎超节点之路上,中国算力或将系统性改善全球产业链中的劣势地位。




AI算力之争进入长跑模式,开放式协同激活内生动力


将视角切换至需求侧,随着AI大模型参数达到千亿乃至万亿级别,大规模服务器集群训练成为标配,计算产业链各个环节都将成为模型创新效率的“乘数基础”。


仅以训练集群规模而言,数据并行(DP)、张量并行(TP)、流水线并行(PP)和序列并行(CP)等多种并行维度的乘积,才是计算集群算力的最终体现。而在更广泛的AI应用视角中,如算力生态的兼容度、软件栈完善程度等,都将影响到大模型用户开发效率和应用成本。


有业内人士总结称,计算集群必须打破“通信墙”、“功耗墙”、“复杂度墙”,才能真正释放出国产算力体系的市场价值。尤其近年来我国算力路线呈现百花齐放姿态,技术复杂性和生态复杂性较强,能否在全产业链范围内实现深度协同,将成为未来全球算力体系之争的关键。 


值得注意的是,大规模智算集群由算、存、网、电、冷诸多子系统构成,组件数量繁多,系统耦合要求极高,整体研发周期较长。超节点玩家需要在生态建设上展开持续性投入,不断优化产业协作模式,才有望赢得这场算力长跑。


比如昇腾384超节点围绕自身CANN架构,极力号召开放者参与生态共建。曙光scaleX640更是彻底打开格局,基于AI计算开放架构完成不同类型加速卡的统一适配,并且直接兼容主流AI计算生态,进一步支持AI模型、业务应用快速无缝迁移与深度优化。


某种意义上来说,相较于后者在算力集成量级上的增长,这种“以开放促协同”的模式对国产算力市场的影响更为深远——


同样锚定计算系统协同前提下,开放式架构相比单一芯片路线,涉及到更多厂商、更丰富的产品以及更长的产业链条,同时也意味着其系统潜能更大,“乘数基础”更强。尤其在全球算力体系化的长期比拼中,开放共赢模式内生动力充沛,更有望摘得智算价值链高处的果实。


总体来看,国产超节点的步步赶超,一方面巩固了国产算力阵营的规模体量优势,另一方面也在计算生态协同领域,加速完成着路径验证和模式优化。


毋庸置疑,在AI芯片单体性能受限的高压环境下,国产算力并未落入对手的节奏,而是在更宏观的产业视角下内炼外延,开垦出一片更具想象力的膏腴之地。何况中国作为全球最大的AI应用市场之一,我们有能力为国产智算集群提供足够的孵化空间。



文章转载自微信公众号:鲜枣课堂

作者 鲜枣课堂

发表回复