AI专题报告：Scale up与Scaleout组网变化趋势如何看？（附下载）

报告研究所 2024年09月03日 21:21

（精选报告来源：报告研究所）

1、Scale up：带宽升级压力更大，铜连接等核心受益

1.1、超节点内部：Scale Up 带动带宽持续提升

超节点指的是多个 GPU 互联的节点，例如英伟达的DGX POD。在云计算阶段，服务器主要为 CPU 服务器，每台服务器配置 1-2 颗CPU 芯片，单服务器配置几乎没有发生过变化。AI 时代，AI 大模型的训练需要更大规模的并行计算，单颗GPU 无法满足模型训练或者推理需求，因此不仅单服务器内部部署GPU数量提升至 4 颗、8 颗甚至更多，并通过 Scale Up 的方式实现更多GPU互联，最终对这样一个靠 Scale Up 方式互联的形态定义为一个超节点。以英伟达为例，超节点定义为 DGX Pod，A 和 H 普通系列每台服务器内部配有8颗 GPU 芯片，到 B 系列，该节点下单台服务 GPU 规模从8 颗升至最多72颗，Scale Up 互联的极限则升至 576 颗 GPU。

AI 训练模型特质决定 Scale UP 内部带宽要求更高。随着AI 模型规模不断增加，在训练角度上，单 GPU 显存很难满足模型需求，同时随着训练量提升，本身对于GPU 的总数需求也需要快速提升，因此大规模分布式并行训练成为更好的选择。

分布式训练常见有三种策略，分别是数据并行（Data Parallelism，DP）、流水线并行（Pipeline Parallelism，PP）和张量并行（Tensor Parallelism，TP），大模型训练时，会混合采用三种并行策略。1）数据并行：每个 GPU 拥有同样的模型副本，数据集拆分成多份给到不同的GPU进行训练，每一次迭代训练完成，各个 GPU 需要把计算得到的梯度进行全局同步，并计算出下一轮迭代需要用到的参数。数据并行中，网络上需要对各个GPU的梯度做一次 AllReduce（AllReduce 是一种特殊的通信协议，要将所有节点上的数据进行规约操作，并将结果返回到根节点，通过 AllReduce 算法，可以实现节点间的数据同步，从而加速模型的收敛速度）。2）流水线并行：将模型按照神经元的层次进行拆分，不同层放在不同的GPU上，这种并行不需要不同 GPU 之间做层间点到点数据传递，只是传输正向计算的激活值和反向计算的梯度值，这种通信量较小，对网络性能要求较低。3）张量并行：联合多个 GPU 同时做张量计算，这种策略需要多个GPU对局部的张量计算结果做全局的 AllReduce 同步。张量并行通常计算规模较大且在一次迭代里会发生多次 AllReduce，因此张量计算对网络带宽需求最大。

实际训练过程，机柜内部进行张量并行，如果采用英伟达GPU 方案，利用NVLINK带宽，机柜间进行流水线并行，同时为了加速模型训练，加入数据并行，一般来说一个数据并行单元成为一个 DP 组，每个 DP 组内张量并行和流水线并行共存。以百度智能云提供的案例为例，如果存在 8 路张量并行，4 路流水线并行，以及3路数据并行，则每次迭代，张量并行需要 100GB 级别的AllReduce，流水线并行需要 100MB 级别的点到点传输，数据并行需要 10GB 级别AllReduce。因此对于带宽的需求更多停留在服务器内部，服务器之外的带宽需求相对较低。随着模型的规模不断增加，对于服务器内带宽的需求会呈现快速提升，为了适应更大的模型训练，建立更大带宽的超节点成为趋势。

1.2、超节点规模：由 GPU 或者云厂商设计决定

（一）英伟达：超节点规模从 GH200 的 256 升级至576 张卡

2024 年 3 月英伟达发布了发布新一代 AI 超级计算机——搭载NVIDIAGB200Grace Blackwell 超级芯片的 NVIDIA DGX SuperPOD。和之前的8 卡方案不同，每个 DGX GB200 系统共包含 36 个 CPU 和 72 个GPU。如果完全采用 NVLINK 互联生成超级点，在 GH200 阶段，互联的上限是256张卡，到 GB200 部分，可升级到 576 张卡。内部互联的带宽部分，单卡拥有18个NVLink 100 GB/s 连接,总带宽可达 1.8TB/s，相较于H 系列，带宽翻倍，若采用NVL72 版本，互联总带宽可达到 130TB/s。

（二）谷歌：超结点规模为 8096 张卡

2023 年 1 月谷歌发表了文章《How to scale AI training to up to tens of thousandsofCloud TPU chips with Multislice》，此前大模型训练如果采用谷歌TPU的方案，只能局限在单个切片中，该报告提出 Multislice 技术，可通过芯片间互联及多个TPU pod 互联，使得将训练集群工作扩展到万颗芯片以上互联规模。

在该文中谷歌提出观点为：通过做大超节点 Pod 的规模，可降低对于DCN互联带宽的要求。具体表现为：如果我们增加 pod 内部算力卡个数，对于pod 之间DCN带宽就可以降低，同样可以达到理想的训练效果，并不会受制于通信带宽迭代的限制。（本质原因在于如果将 TP 留在超节点内部完成，PP 和DP 本身对通信要求较低，通过机柜外互联带宽完成，对应 DCN 带宽要求也可以降低）

（三）UALink：1.0 阶段超节点规模为 1024

2024 年 5 月 AMD、英特尔、谷歌、微软、博通、思科、Meta 和惠普企业等八家科技巨头联合组建了 UALink 联盟，旨在推出一项新的技术标准——UltraAccelerator Link（UALink），对标英伟达的 NVLINK。UALink 联盟预计会在 2024 年第三季度成立，并提供UALink 1.0 规范给加入到联盟内的公司。UALink 1.0 规范支持连接多达 1024 个AI 芯片，并允许在一个计算集群（Pod）内，让接入的 GPU 等加速器附带的内存之间实现直接加载和存储。

1.3、带宽提升驱动内部互联密度提升

结合上述分析，Scale up 后续升级的趋势为做大超节点规模，其中谷歌采用TPU为定制化方案，当前市场仍是使用英伟达方案为为主流。英伟达的方案是通过NVL GB200 方案设计，叠加使用 NVLINK 协议，明显提升机柜内部互联带宽提升，并采用铜互联方式，打开铜互连市场需求。

展望：英伟达公布下一代 Rubin 系列规划，NVLINK 带宽持续升级，推动铜互连带宽升级。目前英伟达公布将在 2026 年推出第一代Rubin 产品，2027 年将推出Rubin Ultra。Rubin 平台将搭载新一代 NVLink 6 Switch，提供高达3600GB/s的连接速度，以及高达 1600 GB/s 的 CX9 SuperNIC 组件，确保数据传输的高效性。如果在 Rubin 系列，英伟达继续采用类似机柜方案设计扩大节点内带宽，NVLINK6.0 支持柜内带宽翻倍提升，有望铜互带宽和互联密度提升。

长期视角：长期来看伴随带宽升级，铜互联传输距离限制或推动光互联方案替代。铜缆在传输电信号过程中存在信号衰减问题，且传输距离越远损耗越大，因此铜缆能实现稳定传输的距离较短。此外随着网络带宽升级，铜缆传输的单链路信号速率也从 56Gbps 升级到 112Gbps，并继续向 224Gbps 方向升级，而信号速率的升级将直接导致链路损耗加速增加，从而进一步缩短铜缆连接距离。基于现实的物理限制条件，IEEE 制定 112G 规范的 802.3CK 小组在56G 速率最长3 米的铜缆IO 基础上，将铜缆链路的最大长度缩减为 2 米。如果不做任何更改，2 米的距离可能不足以将未来架顶式（TOR）交换机与机柜内部较低位置服务器连接起来。因此在当下 112G 甚至 224G 信号速率阶段，通过更改交换机位置，紧凑服务器结构设计减少对于铜缆距离的要求，同时设计上将铜缆从无源铜缆DAC向有源铜缆（AEC、ACC）变化增加铜缆互联距离适应当下需求。但考虑到本身铜缆的物理限制，以及后续带宽持续升级的背景下，铜缆做优化的难度会持续增加，在此背景下，光互联（高带宽高速率长传输距离优势）有望替代铜互联方案。

2、Scale out：集群规模升级，以太网和硅光化加速

2.1、AI 集群规模走向 10 万卡阶段

本报告文件将分享到报告研究所知识星球，扫描下方图片中二维码即可查阅

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）

欢迎加入报告研究所知识星球社群，入圈后您可以享受以下服务：

1、报告持续更新，分享最新、最专业、最深度的行业研究报告、投行报告、白皮书、蓝皮书、公司研报等。公众号发布的报告可同步下载；

2、海量研究报告均可下载PDF高清版，无限制；

3、会员可以提问方式获取具体报告需求；

扫描下方二维码加入星球

业务咨询、商务合作：136 3162 3664（同微信）

温馨提示

应广大粉丝要求，「报告研究所」成立了报告交流群，欢迎各位公司企业、投行、投资机构、政府机构、基金、创业者及金融资本圈朋友加入！

这里能且不限于：“行业交流、报告交流、信息交流、寻求合作等......”

入群方式：添加助理微信touzireport666，发送「个人纸质名片」或「电子名片」审核后即可入群

AI19

Scale up1

Scaleout1

报告798

研究报告795

AI · 目录

上一篇中国AI新篇章：政策推动与产业创新全景分析（附下载）

继续滑动看下一个

报告研究所

向上滑动看下一个

刚刚，我国DUV光刻机实现里程碑式突破！

微博遗存之六

微博遗存之五

性高潮到底什么感觉？真实记录多位女性的自述

执法队员围殴店主，光停职就算完事儿了？

AI专题报告：Scale up与Scaleout组网变化趋势如何看？（附下载）

1、Scale up：带宽升级压力更大，铜连接等核心受益

2、Scale out：集群规模升级，以太网和硅光化加速

您可能也对以下帖子感兴趣

刚刚，我国DUV光刻机实现里程碑式突破！

微博遗存之六

微博遗存之五

性高潮到底什么感觉？真实记录多位女性的自述

执法队员围殴店主，光停职就算完事儿了？

生成图片，分享到微信朋友圈

AI专题报告：Scale up与Scaleout组网变化趋势如何看？（附下载）

1、Scale up：带宽升级压力更大，铜连接等核心受益

2、Scale out：集群规模升级，以太网和硅光化加速

您可能也对以下帖子感兴趣