RuntimeError: NCCL error in: /pytorch/torch/lib/c10d/ProcessGroupNCCL.cpp:784, unhandled system erro

  • Post author:
  • Post category:其他


发现报错:

RuntimeError: NCCL error in: /pytorch/torch/lib/c10d/ProcessGroupNCCL.cpp:784, unhandled system error

想在linux上跑跑mmclassification中的resnet网络,但是报错,查阅资料后发现,第二个错误是由于第一个错误产生的。那么现在就要解决第一个报错。

第一个报错查阅了一堆资料后,发现是GPU使用数量的原因,但我电脑只有一个GPU,修改了配置文件后,依旧这样报错。有的博主是由于文件中有中文字符,我仔细检查后没有发现。

最后才发现,之前用的训练命令如下:

sh ./tools/dist_train.sh configs/resnet/resnet18_b32x8_imagenet.py 1 --work-dir ./ckpt




对上述命令阐述如下:





dist_train.sh –


训练


sh


脚本





configs/resnet/resnet18_b32x8_imagenet.py –


训练依赖的配置





1 – GPU


个数





–work-dir ./ckp –


模型存放的路径


但是这个命令只适用于多个GPU的时候,单个GPU得用以下命令:

python ./tools/dist_train.sh configs/resnet/resnet18_b32x8_imagenet.py --work-dir ./ckpt

最终问题解决,开始炼丹。



版权声明:本文为Brinshy原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。