大模型（LLMs）分布式训练面

来自： AiGC面试宝典

扫码查看更

1. 理论篇

1.1 训练大语言模型存在问题？

• 显存效率:模型参数量太大，显存不够用

即使目前显存最大的GPU也放不下这些大模型的模型参数。例如:175B参数量的GPT3模型参数需要占用700GB( $175\mathsf{B}^{\ast}4\mathsf{k}$ ytes) 的显存。参数梯度是700GB,Adam优化器状态需要1400GB，共计需要2.8TB的显存。

• 计算效率:训练数据量多，模型参数量大，计算量大，单机训练时间久

即使我们能将大模型放在一张GPU上，训练大模型需要的海量计算操作需要耗费很长时间。例如:用英伟达A100显卡训练175B参数量的GPT3模型大约需要288年。

1.2 什么是点对点通信？

• 点对点通信思路:一个进程发送数据，一个进程接收数据• 优点：速度快，成本低

1.3 什么是集体通信？

• 集体通信思路:多个进程发送数据，多个进程接收数据。• 缺点：速度慢，成本高

1.4 什么是数据并行？

• 介绍：将整个数据集切分为多份，每张GPU分配到不同的数据进行训练，每个进程都有一个完整的模型副本。

本地训练神经网络的送代过程

数据并行的迭代过程

• 关键：保证多个GPU上的模型副本是相同的

确保所有worker都从相同的初始化模型参数开始训练。在训练开始前，通常会将0号卡的1模型参数通信同步到其他卡。
每次训练选代中，在后向传递之后，优化器更新参数之前，插入reduce通信操作来规约梯度，确保所有worker上的梯度都是相同的。
通过以上两点，在优化器更新后，也可以保证所有worker上的模型参数是相同的。

相同的初始化模型参数 $\mathbf{+}$ 相同的梯度 $\rightharpoonup$ 相同的模型参数。

1.5 数据并行如何提升效率？

梯度分桶:动机是集体通信在大张量上比在小张量上效率更高。
2.计算与通信重叠:有了梯度分桶之后，在等待同一个桶内的梯度计算完后，就可以进行通信操作
3.跳过梯度同步: 梯度累加，减少梯度通信的频次。

1.6 什么是流水线并行？

层间划分，将不同的层划分到不同的GPU上
前3层在0号卡上，后3层在1号卡上

显存效率：PipeDream $>$ GPipe

1.7 什么是张量并行 (intra-layer)？

• 层内划分，切分一个独立的层划分到不同的GPU上• 0号卡和1号卡分别计算某个层的不同部分

对于一个简单的矩阵乘法GEMMs $\mathsf{Y}=\mathsf{X}\mathsf{A}$

按照对权重矩阵A的分块方式，张量并行分为行并行和列并行.

1.8 数据并行 vs 张量并行 vs 流水线并行?

• 数据并行:计算效率高、实现简单。

• 显存效率:每张卡上都保存了完整的模型、梯度、优化器状态，因此显存效率不高• 计算效率:当增加并行度时，单卡的计算量是保持恒定的，可以实现近乎完美的线性扩展。但规约梯度的通信开销，与模型大小成正相关。

• 张量并行:因模型结构而异，实现难度大。

• 显存效率:随着并行度增加，成比例地减少显存占用。是减少单层神经网络中间激活的唯一方法• 计算效率:频繁的通信，限制了两个通信阶段之间的计算量，影响了计算效率，计算效率很低。

• 流水线并行:通信成本最低

• 显存效率:减少的显存与流水线并行度成正比。但流水线并行不会减少每层中间激活的显存占用• 计算效率:成本更低的点对点(P2P)通信。通信量与流水线各个阶段边界的激活值大小成正比。显存效率:模型并行>流水线并行>数据并行通信效率:流水线并行>数据并行>模型并行

1.9 什么是 3D并行？

3D并行。4路张量并行，4路流水线并行，2路数据并行。共32个workers。

1.10 想要训练1个LLM，如果只想用1张显卡，那么对显卡的要求是什么？

显卡显存足够大，nB模型微调一般最好准备20nGB以上的显存。

1.11 如果有N张显存足够大的显卡，怎么加速训练？

数据并行（DP），充分利用多张显卡的算力。

1.12 如果显卡的显存不够装下一个完整的模型呢？

最直观想法，需要分层加载，把不同的层加载到不同的GPU上（accelerate的device_map）也就是常见的PP，流水线并行。

1.13 PP推理时，是一个串行的过程，1个GPU计算，其他空闲，有没有其他方式？

• 横向切分：流水线并行（PP），也就是分层加载到不同的显卡上。• 纵向切分：张量并行（TP），在 DeepSpeed 世界里叫模型并行（MP）

1.14 3种并行方式可以叠加吗？

是可以的， ${\mathsf{D P}}{+}{\mathsf{T P}}{+}{\mathsf{P P}}$ ，这就是3D并行。如果真有1个超大模型需要预训练，3D并行那是必不可少的。毕竟显卡进化的比较慢，最大显存的也就是 $1100809\cdot$ 。单卡80g，可以完整加载小于40B的模型，但是训练时 $^+$ 梯度 $^+$ 优化器状态，5B模型就是上限了，更别说activation的参数也要占显存，batch size还得大。而现在100亿以下（10B以下）的LLM只能叫small LLM。

1.15 Colossal-AI 有1D/2D/2.5D/3D，是什么情况？

Colossal-AI 的nD是针对张量并行，指的是TP的切分，对于矩阵各种切，和3D并行不是一回事。

1.16 除了3D并行有没有其他方式大规模训练？

可以使用更优化的数据并行算法FSDP（类似ZeRO3）或者直接使用 DeepSpeed ZeRO 。

1.17 有了ZeRO系列，为什么还需要3D并行？

根据ZeRO论文，尽管张量并行的显存更省一点，张量并行的通信量实在太高，只能限于节点内（有NVLINK）。如果节点间张量并行，显卡的利用率会低到 $15%$ 但是，根据Megatron-LM2的论文，当显卡数量增加到千量级，ZeRO3是明显不如3D并行的。

Figure 10:Throughput per GPU ofPTD-Pand ZeRO-3for two different GPT models (the 175B GPT-3modelis shown with dotted lines, and the 530Bmodelis shownwith solid lines).Gloha!batch sizes are fixedandZeRO-3isusedwithoutanymodel paralleis

1.18 平民适不适合玩3D并行？

不适合。
3D并行的基础是，节点内显卡间NVLINK超高速连接才能上TP。有没有NVLINK都是个问题。
而且，节点间特殊的网络通常有400Gb/s？远超普通IDC内的万兆网络10Gb/s。

1.19 平民适不适合直接上多机多卡的ZeRO3（万兆网）？

不适合。

想象一下，当65B模型用Zero3，每一个step的每一张卡上需要的通信量是195GB（3倍参数量），也就是1560Gb。万兆网下每步也要156s的通信时间，这画面太美。

1.20 分布式并行及显存优化技术并行技术有哪一些，都有什么特点？

分布式并行及显存优化技术并行技术：

• 数据并行（如：PyTorch DDP）
• 模型/张量并行（如：Megatron-LM（1D）、Colossal-AI（2D、2.5D、3D））
• 流水线并行（如：GPipe、PipeDream、PipeDream-2BW、PipeDream Flush（1F1B））
• 多维混合并行（如：3D并行（数据并行、模型并行、流水线并行））
• 自动并行（如：Alpa（自动算子内/算子间并行））
• 优化器相关的并行（如：ZeRO（零冗余优化器，在执行的逻辑上是数据并行，但可以达到模型并行的显存优化效果）、PyTorch FSDP）

1.21 显存优化技术有哪一些，都有什么特点？

显存优化技术：

• 重计算(Recomputation)：Activation checkpointing(Gradient checkpointing)，本质上是一种用时间换空间的策略。
• 卸载（Offload）技术：一种用通信换显存的方法，简单来说就是让模型参数、激活值等在CPU内存和GPU显存之间左右横跳。如：ZeRO-Offload、ZeRO-Infinity等。
• 混合精度（BF16/FP16）：降低训练显存的消耗，还能将训练速度提升2-4倍。• BF16 计算时可避免计算溢出，出现Inf case。• FP16 在输入数据超过65506 时，计算结果溢出，出现Inf case。

1.22 常见的分布式训练框架哪一些，都有什么特点？

• 第一类：深度学习框架自带的分布式训练功能。如：TensorFlow、PyTorch、MindSpore、Oneflow、PaddlePaddle等。
• 第二类：基于现有的深度学习框架（如：PyTorch、Flax）进行扩展和优化，从而进行分布式训练。如：Megatron-LM（张量并行）、DeepSpeed（Zero-DP）、Colossal-AI（高维模型并行，如2D、2.5D、3D）、Alpa（自动并行）等

2. 实践篇

2.1 假如有超多的8卡A100节点（DGX A100），如何应用3D并行策略？

• 首先，张量并行。3种并行方式里，张量并行（TP）对于GPU之间的通信要求最高，而节点内有NVLINK通信速度可以达到600GB/s。
• 其次，流水线并行，每个节点负责一部分层，每35个节点组成一路完整的流水线，也就是一个完整的模型副本，这里一个模型副本需280卡。
• 最后，数据并行，官方也做了8路，10路，12路的并行实验，分别使用280个节点，350个节点和420个节点。

参考 Megatron-Turing NLG 530B集群规模越大，单个GPU利用率越低。

2.2 如果想构这样一个大规模并行训练系统，训练框架如何选？

可以参考Megatron-Turing NLG 530B，NVIDIA Megatron-LM $^+$ Microsoft DeepSpeedBLOOM 则是PP+DP用DeepSpeed，TP用Megatron-LM
当然还有一些其他的训练框架，在超大规模下或许也能work。

2.3 训练框架如何选？

下面这个图是bloom的一个实验，DP/TP/PP都能降显存，核心是要降到单卡峰值80g以下。
真大模型就是要TP $_{\overline{{\mathbf{\alpha}}}=8}$ ，充分利用NVLINK，然后优先PP，最后DP。

GPUs	Size	DP	TP	PP	MBS	Mem	TFLOPS	Notes
8	20B	1	8	1	1	68GB	107.48	02-17
80	200B	1	8	10	1	75GB	97.82	02-17
160	200B	2	8	10	1	53GB	96.19	02-17
								知乎-@suel6

然而假大模型（7B）比如LLaMA-7B，可以不用3D并行，直接用DeepSpeed ZeRO更方便，参考open-llama项目。

3. 并行化策略选择篇

3.1 如何选择一款分布式训练框架？

• 训练成本：不同的训练工具，训练同样的大模型，成本是不一样的。对于大模型，训练一次动辄上百万/千万美元的费用。合适的成本始终是正确的选择。
• 训练类型：是否支持数据并行、张量并行、流水线并行、多维混合并行、自动并行等
• 效率：将普通模型训练代码变为分布式训练所需编写代码的行数，我们希望越少越好。
• 灵活性：你选择的框架是否可以跨不同平台使用？

3.2 如何选择一款分布式训练框架？

• TPU $^+$ XLA $^+$ TensorFlow/JAX ：由Google主导，由于TPU和自家云平台GCP深度绑定。• GPU $^+$ PyTorch $^+$ Megatron-LM $^+$ DeepSpeed ：由NVIDIA、Meta、MicroSoft大厂加持，社区氛围活跃，也更受到大家欢迎。

3.3 单GPU

• 显存够用：直接用• 显存不够：上offload，用cpu

3.4 单节点多卡

• 显存够用（模型能装进单卡）：DDP或ZeRO• 显存不够：TP或者ZeRO或者PP

重点：没有NVLINK或者NVSwitch，也就是穷人模式，要用P

3.5 多节点多卡

如果节点间通信速度快（穷人的万兆网肯定不算）

ZeRO或者3D并行，其中3D并行通信量少但是对模型改动大。

如果节点间通信慢，但显存又少。DP+PP+TP+ZeRO-1

4. 问题篇

4.1 推理速度验证

ChatGML在V100单卡的推理耗时大约高出A800单卡推理的 $40%$ 。
ChatGML推理耗时和问题输出答案的字数关系比较大，答案字数500字以内，A800上大概是每100字，耗时1秒，V100上大概是每100字，耗时1.4秒。

ChatGML在A800单卡推理耗时统计

问题	运行次数	平均答案长度	平均耗时
给我介绍一下苹果公司,50个字	5	146.6	1.94589900970 45898
给我介绍一下微软公司,50个字	5	104.6	1.29782838821 41113
给我介绍一下苹果公司,100个字	5	165.4	2.09909729957 58055
给我介绍一下微软公司,100个字	5	154.4	1.90921025276 18409
给我介绍一下苹果公司,200个字	5	168.4	2.13020663261 41356
给我介绍一下微软公司,200个字	5	208.8	2.60898609161 37697
给我介绍一下苹果公司,300个字	5	443.4	5.40341305732 72705
给我介绍一下微软公司,300个字	5	484.2	5.980589342
给我介绍一下苹果公司,500个字	5	525.4	6.24632849693 2984
给我介绍一下微软公司,500个字	5	591.6	6.96139039993 2862

ChatGML在V100单卡推理耗时统计

问题	运行次数	平均答案长度	平均耗时
给我介绍一下苹果公司,50个字	5	138.4	2.76165933609 0088
给我介绍一下微软公司,50个字	5	78.8	1.57395930290 22216
给我介绍一下苹果公司,100个字	5	144.6	2.87229075431 8237
给我介绍一下微软公司,100个字	5	180.8	3.49202961921 6919
给我介绍一下苹果公司,200个字	5	168.8	3.46867556571 96047
给我介绍一下微软公司,200个字	5	268.6	5.26768960952 7588
给我介绍一下苹果公司,300个字	5	460.2	9.26667351722 7172
给我介绍一下微软公司,300个字	5	472.2	9.08066983222 9614
给我介绍一下苹果公司,500个字	5	558	11.0442333221 43555
给我介绍一下微软公司,500个字	5	585.4	11.4136377811 43189

• 结论：

• 训练效率方面: 多机多卡训练，增加训练机器可以线性缩短训练时间。

• 推理性能方面:

• ChatGML在V100单卡的推理耗时大约高出A800单卡推理的 $40%$ 。
$\bullet$ ChatGML推理耗时和问题输出答案的字数关系比较大，答案字数500字以内，A800上大概是每100字，耗时1秒，V100上大概是每100字，耗时1.4秒。

4.2 并行化训练加速

可采用deepspeed进行训练加速，目前行业开源的大模型很多都是采用的基于deepspeed框架加速来进行模型训练的。如何进行deepspeed训练，可以参考基于deepspeed构建大模型分布式训练平台。

deepspeed在深度学习模型软件体系架构中所处的位置：

DL model—>train opitimization(deepspeed)—>train framework —> train instruction (cloud)— $_{->}$ GPU device当然需要对比验证deepspeed 的不同参数，选择合适的参数。分别对比stage 2,3进行验证，在GPU显存够的情况下，最终使用stage 2。

4.3 deepspeed 训练过程，报找不主机

解决方法：deepspeed的关联的多机的配置文件，Hostfile 配置中使用ip，不使用hostname

4.4 为什么多机训练效率不如单机？

多机训练可以跑起来，但是在多机上模型训练的速度比单机上还慢。
通过查看服务器相关监控，发现是网络带宽打满，上不去了，其他系统监控基本正常。原理初始的多机之间的网络带宽是64Gps，后面把多机之间的网络带宽调整为800Gps，问题解决。
实验验证，多机训练的效率，和使用的机器数成线性关系，每台机器的配置一样，如一台GPU机器跑一个epoch需要2小时，4台GPU机器跑一个epoch需要半小时。除了训练速度符合需求，多机训练模型的loss下降趋势和单机模型训练的趋势基本一致，也符合预期。

4.5 多机训练不通，DeepSPeed配置问题

多机间NCCL 不能打通• 解决方法：

新建 .deepspeed_env 文件，写入如下内容

NCCL_IB_DISABLE=1 NCCL_DEBU $\mathrm{\ddot{\rho}}=$ INFO NCCL_SOCKET_IFNAME=eth0 NCCL_P2P_DISABLE $=1$

总结

如果没有NVLINK和节点间还是万兆网的穷人，TP别想了，DP也勉强（显存不够），主要靠PP，再试试ZeRO1参考链接：Model Parallelism: https://huggingface.co/docs/transformers/v4.17.0/en/parallelism

文章目录