大模型训练集群的系统扩展之道:Scale-up与Scale-out详解
众所周知,现在动辄万亿参数的大模型训练需要万卡、10万卡的训练集群支持。看过“秦始皇人列计算机”的朋友们都知道,大规模系统协同工作的时候,调度和通讯就会成为瓶颈。为了让集群能够管理更多的GPU卡,聪明的工程师们借鉴了原来云平台管理服务器的办法,通过Scale-up(纵向扩展)和Scale-out(横向扩展)实现系统扩展。Scale-up过增加单台服务器(节点)的GPU数量或性能(如使用更高算力的GPU)来提升计算能力,Scale-out通过增加服务器节点数量(分布式架构)来提升计算能力。简单来说Scale-up就是提高个体能力, Scale-out就是增加成员数量,当然在一个集群里这两个技术是结合起来使用的。
什么是超节点
本文重点谈的超节点就是Scale-up方案的杰出代表。我们先来看看超节点的定义,GPU 超节点是一种通过高带宽、低时延互联技术将多张GPU(或AI算力芯片)紧密耦合的集群化架构,旨在突破传统分布式算力集群的通信瓶颈,提升整体计算效率,一句话总结就是把尽量多的卡整合到一个机器里。常见双层胖树或全互联拓扑,采用、HCCS、OISA等高速总线协议,实现GPU间通信带宽达数百GB/s至数TB/s;单超节点可集成数十至数百颗GPU,并通过Scale Out横向扩展构建万卡级集群。超节点是个系统性工程,包含计算、存储、网络的有效整合。人与人之间通讯可以靠吼,但是机器与机器之间要约定通讯协议,不然就是鸡同鸭讲了。上面提到超节点采用、HCCS、OISA等高速总线协议实现内部通讯,为了便于大家理解后面的内容,这块我们详细展开下说说。
什么是
谈到算力集群网络协议时,大家会看到、、IB网络等网络术语,为了防止大家混淆概念,先简单谈下这几个的区别。 是 专为 GPU 间通信设计的点对点高速串行接口,支持 GPU 直接内存访问(RDMA),绕过传统 PCIe 总线限制。当年intel把持PCIe,基于所谓的访问安全约束,要求PCIe 之间的数据直通需要经过CPU才行。 为了摆脱PCIe的限制,开发了协议。借助,单个服务器内的8个GPU可以通过点对点网络连接,构建混合立方体网格。这一创新技术不仅提高了数据传输效率,还为高性能计算领域带来了新的突破。 是基于 的硬件交换机,用于构建单节点内全互联 GPU 集群(如 DGX 系统),支持 8-16 个 GPU 的无阻塞通信。
IB 是开放标准的高性能网络协议,用于跨节点集群通信(如多台服务器间),支持 RDMA 和低延迟传输。
在实际AI 集群中,常采用/ 节点内互联 + IB 跨节点组网的混合架构。例如,DGX H100 系统通过 实现单节点 8 GPU 全互联,再通过 IB 网络连接多节点,兼顾局部高效与全局扩展。 通过封闭网络和计算系统卖高价收割用户,赚的盆满钵满。好了,上面将整个智算计算的网络技术做了简单介绍,偏题有点多,接下来我们聚焦Scale-up的超节点展开。让我们先来看看超节点的杰出代表。
一、NVL72的启示
GB200 NVL72 是于2024年3月GTC 大会上发布的一套多节点液冷机架级扩展系统,是行业第一台超节点怪兽。
GB200 NVL72中一共包含了18个计算节点( Node),上面10个tray,下面8个,每个计算节点中配置了2块GB200主板,每个GB200由一颗Grace CPU和两颗 GPU构成。此系统一共包含了72颗 GPU芯片,18颗芯片。中间是9个 tray,每个tray 2个,所以一共2*9*4=72个1.8TB/s 的 port,对应72个GPU。
NVL72提供FP16/BF16精度下 360P 算力,每颗配备192GB HBM3e显存、总显存容量达13.8TB,单GPU显存带宽16TB/s、全系统总带宽576TB/s。36颗Grace CPU,每颗配备480GB 内存,总容量17TB。机柜功耗达120kW,支持通过和扩展至576颗GPU(8台NVL72机柜),形成1PB/s级互联带宽。
这台性能怪兽可以用来承担如下任务:
1.大规模语言模型(LLM)训练与生成式AI
NVL72专为万亿参数级别的LLM训练和实时推理优化,支持生成式AI应用(如文本生成、图像合成、代码编写等)。其72个 GPU通过第五代实现1.8TB/s的互连带宽,可高效处理复杂模型训练中的并行计算需求。
2.高性能计算(HPC)与科学模拟
适用于需要超强算力的科学计算任务,如气候建模、核聚变模拟、分子动力学分析等。其FP8精度训练速度较前代提升4倍,且支持多节点扩展,满足跨学科研究需求。
3.云计算与实时数据处理
在云服务中,NVL72可处理海量用户请求,尤其适合实时数据分析、流媒体处理等高并发场景。其模块化设计允许灵活配置内存和存储资源,优化资源利用率。
4.超大规模集群与绿色数据中心
NVL72支持通过交换机扩展为等超节点,构建10万卡级GPU集群,满足Meta等企业的大规模训练需求。其液冷技术降低30%能耗,助力数据中心实现碳中和目标。
二、国产超节点的进展
超节点作为未来智算系统的主要方向,国内厂商纷纷跟进,陆续有产品发布和落地。由于和是英伟达闭源产品,国产厂商自然不能走这条路线。前文我们有提到超节点会用的、HCCS、OISA等高速总线系统。为了对抗英伟达的,国内启动了scale-up的三个标准项目,即中移动牵头的OISA、腾讯牵头的ETH-X和阿里牵头的ALS(Alink )。scale-up的网络标准,本质上一种技术的垂直整合。这个就会涉及到整个产业链,包括GPU厂家、交换机厂家、设备厂家和最终的用户。
中国移动OISA采用分层设计(事务层、数据层、物理层),支持大规模GPU对等互联,物理层基于112G 技术,单端口双向带宽达100GB/s,通过多层交换芯片组网可扩展至1024 GPU互联;联合48家产业链单位(包括芯片、服务器、高校等),强调开放性和兼容性,支持多厂商GPU芯片集成。
腾讯ETH-X基于以太网技术(ETH),兼容RoCE、、OISA等多种协议,支持解耦架构(-Cable-),硬件模块化设计;侧重推理场景,通过TP/EP并行减少Scale-out流量,优化带宽利用率;联合Intel、光模块厂商及设备商,强调开放互通,但GPU厂商参与较少。
阿里ALS追求极致带宽(800GB/s)、极低时延(纳秒级)和极简协议,明确排除RDMA网络,专注原生内存语义;吸引多家GPU芯片厂商(如壁仞、摩尔线程),但生态封闭性较强,偏向阿里云技术栈。
目前国内发布的超节点产品有基于华为910C的和基于昆仑芯P800的64卡昆仑芯超节点。
2.1 华为
华为是一款具有暴力美学,大力出奇迹的POD方案。虽然经常被用来跟NVL72做对比,但是NVL72是全铜互联、通过1U算力节点将72个GPU塞进一个功耗高达120KW的柜子里。虽然整体功耗是NVL的4.7倍,但是用了12个机架部署计算单元,每个机架32颗芯片,就是常见的一柜4机、一机8卡方案。另外,继承了华为网络的实力,整个系统采用光互联。
384超节点是华为云面向AI时代设计的革命性算力架构,采用“资源池化、对等互联、动态组合”三大设计理念。通过新型高速互联总线技术,将384颗昇腾910C芯片整合为单一逻辑计算单元,突破传统服务器8卡互联的物理限制,实现算力密度50倍提升。系统分布于16个机架,其中12个机架部署计算单元(每架32颗芯片),4个机架配备 16800交换机,构建全互连(All-to-All)拓扑结构,消除传统分层网络瓶颈。
此外,CM384尤其契合中国优势领域,国内网络生产能力、防止网络故障的基础设施软件,以及通过良率提升进一步扩展至更大规模场景的潜力。其短板在于功耗达到GB200 NVL72的3.9倍,每FLOP能效低2.3倍,每TB/s内存带宽能效低1.8倍,每TB HBM内存容量能效低1.1倍。尽管存在功耗缺陷,但这在中国并非限制性因素。
每颗华为昇腾910C GPU提供2,800 Gbit/s的单向纵向扩展带宽,与英伟达GB200 NVL72单GPU的7,200 Gb/s纵向扩展带宽处于同一量级。英伟达NVL72通过高密度直连铜缆实现纵向扩展网络,而华为则采用简单粗暴的方案——每GPU部署7个400G光收发器,以堆叠方式达成2,800 Gbit/s的纵向扩展带宽。
每个 384 Pod共配置6,912个400G光模块/收发器,其中5,376个用于Scale Up网络,1,536个用于Scale Up网络。单个Pod包含384颗昇腾910C芯片,每颗芯片为纵向扩展通信提供2.8 Tbps的互连带宽。因此,每芯片需7个400G收发器,384颗GPU总计需384×7=2,688个收发器。因采用单层扁平化拓扑,交换机侧需镜像部署2,688个收发器,纵向扩展网络总计使用5,376个400G收发器。
384采用双层8轨优化拓扑架构。每台横向扩展的模块化交换机配备768个400G端口,其中384个端口向下连接384个GPU,另384个端口向上互联。由于Pod内共有384个GPU(每个配备400G网卡),除需0.5个脊交换机外,至少还需1个叶交换机进行接入。
在华为云芜湖数据中心完成规模上线,支持长稳训练40天不中断。中国电信韶关算力集群于4月26日全球首发商用昇腾超节点,未来计划扩展至中国移动等国家级枢纽。
2.2 昆仑芯超节点
在3月27日开幕的2025中关村论坛,昆仑芯科技与中国移动首次公开展示联合产业合作伙伴共同开发的64卡超节点智算服务器。该服务器依托昆仑芯P800,采用OISA技术(Omni- ,全向智感互联),实现单柜内全互联的数据通信。在百度AI开发者大会上,昆仑芯超节点正式发布,昆仑芯超节点在产品形态上非常接近NVL72,整柜功耗同样是120KW。产品主要特点如下:
1、全互联通信带宽提升8倍训推性能跨越式提升。通过硬件架构创新,昆仑芯超节点突破传统单机8卡产品形态,超高密度设计使得单柜可容纳32/64张昆仑芯AI加速卡。单柜内卡间实现全互联通信,带宽提升高达8倍,一个机柜的算力最高可达到传统形态下8台8卡服务器,实现对MoE大模型单节点训练性能5-10倍、单卡推理效率13倍的大幅提升。
2、整柜功率可支持到120kW大幅降低PUE。在能耗和散热方面,昆仑芯积极响应节能降耗政策,采用高效的冷板式液冷方式进行系统散热,整柜功率可支持到120kW,大幅降低数据中心的PUE(Power Usage ,数据中心消耗的所有能源与IT负载消耗的能源的比值)。不仅如此,昆仑芯超节点支持液冷系统的漏液检测,可及时针对液冷故障进行预警、告警、修复等,最大化提高整机柜系统无间断稳定运行效率。
3、机柜间IB/RoCE通信高带宽、低延迟。当前,各级政府、众多行业和头部企业集中发力,正在加快建设一批超大规模智算中心。针对集群拓展需求,昆仑芯超节点机柜间支持IB/RoCE通信,可实现跨柜高带宽、低延迟的数据传输,支持万卡以上规模的智算集群构建。
4、自研XPU Link兼容主流scale-up通信标准。昆仑芯自研互联通信协议XPU Link,秉承一贯的“共生共赢”发展理念,昆仑芯XPU Link兼容scale-up通信标准OISA,与上下游合作伙伴共建超节点行业生态,携手推动国产AI算力在超节点集群中的规模部署和产业应用。