Pytorch 并行训练

介绍常用术语 worker:常指 CPU node:节点,通常对应一台完整的机器 nnodes:节点数量 node_rank:节点序号 nproc_per_node:节点上的进程数量,通常一个进程对应一个 GPU,故也表示 GPU 的数量 master_addr:master 的 IP 地址,也就是 rank=0 的 IP 地址 RANK:进程的序号,通常一个进程对应一个 GPU,...

技术实践