大规模分布式训练–模型并行策略

  • Post author:
  • Post category:其他




应用场景

随着深度学习领域的发展,研究人员发现模型越大训练出来的效果越好,因此模型越来越大成为深度学习领域的一个显著特征。但是越大的模型对设备的要求越高,即需要单卡的算力更强,内存空间更大。当单卡运行不能满足模型的要求时,往往需要多卡甚至多台机器协调工作,共同完成训练工作。但如何协调多卡/多机来完成大模型的训练,是大规模分布式训练所需要解决的问题。

模型并行策略是大规模分布式训练很常见的策略之一。它通过将模型中特定子图中的权值均匀的分配到多张卡上,从而降低了模型对单卡的内存要求。帮助模型顺利运行起来。



什么是模型并行

模型并行是算子层面的并行,它利用某些算子的特性将算子拆分到好多个设备上进行计算。因此并不是网络中所有的算子都可以拆分计算,可以拆分的算子需满足如下特性:

  • 可以并行计算的算子
  • 算子其中一个输入来自于权值

综上, 模型并行中最主要应用的算子就是matmul算子。(conv算子也满足上述要求,不知道为啥没用,个人猜测可能是CNN网络规模不是很大,单卡可以cover, 没必要进行模型并行)。

理论上只要模型中有一个matmu算子就可以进行模型并行策略,算法示例图如下,左图为一个matmul算子的网络结构,右图为通过模型并行策略将一个matmul算子拆分到两张卡上进行计算,每张卡只需要保存原算子1/2的权值。最后通过通信算子allgather获取其他卡的计算结果,从而使每张卡都可以获取完整的计算结果。

img1:模型并行策略简单示例图



模型并行在网络中的应用

从上图可以看出,只要模型中存在matmul算子就可以使用模型并行策略,但实际的网络中并不推荐这么使用,因为这样的话,一个matmul算子就需要配套一个allgather通信算子,这样极大的扩大了通信开销,从而大大拖慢网络训练的速度。真实的网络中往往并不这么用,而是通过多个matmul算子组合,尽可能少的使用通信算子也能达到一样的目标。常见的组合有两种:



case1:MLP子图



MLP的子图介绍

MLP是transformer网络中的一段子图,其简化后的结构如下:

img:MLP子图


MLP子图的代码如下

# x是输入, w1和w2是训练的权值
out1 = torch.matmul(x, w1)
out2 = torch.matmul(out1, w2)



模型并行策略拆分MLP子图

子图中有两个matmul,拆分策略如下:

  • 第一个matmul的权值按列切分
  • 第二个matmul的权值按行切分
  • 通过all_reduce通信算子获取完整的输出结果

    MLP的拆分策略如下图:

    img3:通过模型并行策略拆分MLP子图


模型并行策略实现的MLP代码示例:


模型并行策略实现的MLP



case2:Attention子图

注意力机制是NLP网络很重要的一个特性。以下是自注意力机制中涉及matmul代码的简易实现:

# bs: batch_size, s: seq_len, h: hidden_size
query = F.linear(x, w_q) # query.shape: [bs,s,h]
key = F.linear(x, w_k)
value = F.linear(x, w_v)
attention_scores = torch.matmul(query, key.permute(0,2,1)) # attention_scores.shape: [bs,s,s]
context_layer = torch.matmul(attention_scores, value) # context_layer.shape: [bs,s,h]
output = F.linear(context_layer, w_o) # output.shape: [bs,s,h]

使用模型并行策略拆分Attention子图:

仔细分析代码,可以发现以上代码是两组MLP子图。因此需要额外添加两组all_reduce通信。具体实现代码如下:


使用模型并行策略拆分Attention 网络子图



模型并行的优化点



优点

  • 在模型中实现,不依赖第三方框架平台。大规模分布式训练的另外两种策略:ZeRO数据并行和流水并行。由于其实现的复杂性。它们分别需要借助DeeSpeed和Megatron来实现。而模型并行策略只需要原先的模型中修改即可。减少了学习第三方平台的成本。

    缺点



缺点

  • 网络中并不是所有节点都可以进行模型并行拆分,因此在内存优化的效果上1+1<< 2。
  • 针对特定的子图结构才生效, 不通用。ZeRO数据并行和流水并行是两种通用的大规模分布式训练的策略,适用于任何模型。而模型并行是一种广泛应用于Transformer类网络中策略,且仅适用于其中的Self-Attention和MLP结构,其他网络暂时无法使用。
  • 需要保存多份checkpoint。由于模型并行中每个device只保存部分的权值,因此每张卡的权值都需要保存下来。即需要保存mp_size份checkpoint。`



版权声明:本文为RogersStar原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。