最近这段时间,算力互联网的概念突然火了。
先是5月17日,在“2025年世界电信和信息社会日纪念活动”上,中国信通院会同中国电信、中国移动、中国联通三大运营商联合启动“算力互联网试验网”的建设,并且发布了《算力互联网体系架构1.0》,引发了全网关注。
不久后,5月30日,工信部印发了《算力互联互通行动计划》(以下简称《行动计划》)。其中,也明确提到了算力互联网,指出要“以算力互联互通为主线,推动构建算力互联网,逐步培育形成全国统一算力服务大市场”。
一时间,算力互联网这个概念刷屏各大媒体的头条。人人纷纷议论:到底什么是算力互联网?它和我们一直在用的传统互联网有什么不同?又将如何影响我们的生活?
今天这篇文章,小枣君就给大家做个深入解读。
█ 算力互联网的诞生背景
关于算力互联网的定义,小枣君觉得中国信通院副院长王志勤的解释最容易理解——
“算力互联网并不是一张新的网络,而是在现有互联网基础上,将分散在各地的算力资源连接在网上,通过标准化的算力标识和协议接口,跨域资源互联网络,实现全网异构算力的智能感知、实时发现、随需获取。”
换言之,算力互联网,就是一张服务于算力流动的网络。它的作用,是进一步实现算力的互联互通,盘活现有的算力资源,提升算力的使用效率,降低使用成本,为用户带来更好的使用体验。
众所周知,在目前我们所生活的数字时代,算力已然成为了一种关键的战略资源。无论是我们的日常生活,还是企业的运营、政府的治理,都依赖于算力的支撑。
近年来,随着人工智能技术的全面爆发,算力的需求呈现出指数级的增长态势。
国内各地建设了大量算力基础设施。然而,算力资源的分布并不均衡(部分地区算力过剩,部分地区算力短缺),导致了算力资源的浪费,算力使用效率无法获得提升。
提出算力互联网,就是为了解决这些问题。
算力互联互通
前些年我们国家提出的东数西算战略,还有运营商提出的算力网络,也是致力于实现算力互联互通。
算力互联网,比东数西算和算力网络的目标更大,是要实现整个网络全域维度的互联互通,把全网分散的算力基础设施(算力孤岛)连接起来,形成一个“经脉畅通”的整体。
将来,个人和政企用户使用算力,就会像使用水和电一样,随时随地,即开即用,用多少买多少。
█ 算力互联网的建设挑战
算力互联网是在现有互联网基础上的进一步升级。但是,因为算力业务形态和传统互联网业务形态有很大区别,所以,这个升级也面临着重大挑战。
我们不妨把实现算力互联互通看作是一个“修路”项目。
首先,需要把路修通、修宽。
分布在各地的算力资源,要先实现物理上的连通。现在的AI智算任务涉及到海量的数据,对数据传输带宽有极高的要求,所以,路也必须足够“宽敞”。
其次,是交通规则的统一。
制定统一的标准和规则,建立统一的算力标识体系,是将不同主体、不同类型、不同地域的公共算力资源连接起来的前提。这是一个巨大的工作量。
第三,是确保安全。
安全是算力互联互通的前提。如此庞大的网络,需要增强数据安全防护能力,解决算力资源的安全性和可靠性问题,确保用户在使用算力时数据的安全和隐私保护。
算力互联网,仅实现算力的互联互通是不够的。它还涉及到一个关键环节——算力交易。
是的,算力既是资源,也是商品。流动为交易创造了条件。但是,算力交易并不像我们平时买件衣服或买个手机那么简单。算力具有无形性、异质性、动态性等特点,这就给算力交易带来了很大的难度。
算力交易
如何寻找买方(卖方),如何定价,如何结算,如何确保算力交易的公平性、透明性和高效性,都是算力互联网建设所需要面对的问题。
建立全国统一的算力交易平台,制定完善的算力交易机制(包括算力定价、算力计量、算力交付等环节),从技术和制度上共同努力,才能实现算力的市场化运作。
█ 算力互联网的建设方向
目前看来,算力互联网采取了“先互联、再成网、同步建市场”的总体思路,以“技术试验+生态共建”为核心,稳步开展相关研究。
《行动计划》明确给出了算力互联互通的建设目标:
到2026年,建立较为完备的算力互联互通标准、标识和规则体系。到2028年,基本实现全国公共算力标准化互联,逐步形成具备智能感知、实时发现、随需获取的算力互联网。
《行动计划》也详细提出了六方面共16项重点任务。如下图所示:
这些重点任务,覆盖了推动算力互联互通的方方面面,包括底层技术、标准规范、互联规则、连接场景,以及平台、应用和安全等。
限于篇幅,小枣君就不逐一介绍了。我们看其中几个关键点。
首先,在《行动计划》中,有一句话特别值得关注——“推动数据通信产业高质量发展,支撑数据高效入算、算力无损互联”。
这在国内官方产业政策中是首次提出,充分表明数据通信产业将在这次算力互联网建设中担当重要角色,并迎来前所未有的发展机遇和挑战。
过去数十年,数据通信产业支撑了互联网的蓬勃发展,也为整个社会的信息化数字化打下了坚实的基础。
如今,互联网进入新的发展阶段,数据通信也需要引入技术创新和架构革命,进一步提升连接能力,为网络的迭代升级保驾护航。
《行动计划》提到了算力互联网的几个关键应用场景——入算场景、算间场景、算内场景。我们不妨基于这些场景,看看数据通信是如何进行应对的。
● 算内场景
算内,是数据中心(智算集群)内部算力节点的高速互联。
最近这几年,很多企业都在搞AIGC大模型训练。这项工作对数据中心网络技术提出了极大的挑战。越来越庞大的集群规模,以及爆发式增长的流量,推动数据中心内部互联带宽高速增长,400GE都已经成为入门标配,800GE/1.6TE也开始走向现实。
除了网络规模和吞吐能力之外,数据通信网络在负载均衡、智能容错以及单点故障可自愈等方面也进行了针对性提升。例如,通过网络级负载均衡(NSLB)算法,可以对路径规划进行优化,消除网络性能瓶颈,增加网络吞吐能力。
经过升级演进的数据通信网络,满足了算内场景的高效互联需求。AIGC大模型的训练效率得到了保障,训练成本也随之下降。
● 算间场景
算间,是多个智算集群之间的网络连接。
随着大模型参数的不断增加,训练集群也逐渐迈入万卡、十万卡时代。仅靠一个数据中心无法满足这样的规模,需要多个异地数据中心进行算间互联,以实现一个超大集群。
算间场景不仅需要“长距离+大带宽”的传输能力,同时还需要实现零丢包。
传统数据通信网络是无法做到零丢包的。一旦丢包,网络性能就会陡降,从而导致算力资源的浪费。
而新型的数据通信,通过协议和算法上的改进,可以实时感知网络拥塞情况,实现精准的流控制,真正做到零丢包。哪怕数据中心之间相隔数千公里,都可以实现全局协同调度和无损互联。
这同样保障了训练任务的高效进行,有利于缩短大模型训练周期,减少训练投入。
● 入算场景
入算,是端侧(政企等用户侧)与智算中心之间的数据连接场景。
端侧每天产生大量的数据,需要上传到云端进行处理。这种场景会产生大量的大象流(一种体量巨大的网络数据流),占用非常大的网络带宽。
传统的负载均衡技术无法应对这种类型的流量,容易出现拥塞、丢包等,拉低网络效率。
新型的数据通信网络,可以提供10Mbps~100Gbps弹性带宽能力,通过引入大象流精准识别和流级调度技术,可以实现入算网络的负载均衡和千万级的流调度能力。
海量样本高效入算,成为了现实。用户再也不用寄送硬盘来传送数据了。
总而言之,我们可以看到,数据通信网络一直在持续演进和创新,以此满足时代发展的需求。AI浪潮的突然到来,加速推动了数据通信网络的演进。算力互联网的算内、算间和入算场景,给了数据通信网络更大的舞台,让它有机会展现更多的价值和能力。
在这个舞台上,数据通信网络不仅需要满足高速、大带宽、低延迟等基本要求,还需要具备智能化、灵活调度、安全可靠等特性,以应对日益复杂多变的场景需求。
算力最终是要为应用场景服务的。数据通信网络构建了算力互联网,打通了算力和应用之间的阻隔,实现了算力向各个垂直行业领域的赋能。这不仅推动了全行业的数智化转型,也加速了整个数字经济的重塑。
█ 最后的话
目前,我国算力互联网建设已取得初步成果。
在资源互联调度层面,已完成131家企业499个算力资源池的资源标识,汇聚了111.3 EFlops智能计算资源。这些资源,正在为千行百业的数智化转型发挥重要作用。
算力互联网的建设是一个复杂而庞大的系统工程,面临的困难和挑战仍然很多。
希望产业界上下能够共同努力,将《行动计划》里的每一个重点任务落实到位,推动算力互联网早日成为现实。
文章转载自微信公众号:鲜枣课堂