PyTorch实战:分布式训练
当前深度学习模型训练正在朝着大模型的趋势发展,这里包括海量的训练数据(预训练)以及亿级别的模型参数,而我们单张显卡的计算与存储资源是相对有限的,因此需要针对大规模数据进行分布式训练,甚至还要对模型进行并行化处理(有可能模型的参数多到 batch_size=1 的数据都无法喂入)。尽管分布式训练听起来
...
思考的停滞才是真正的懒惰