【MindSpore】【分布式训练】Atlas800-9000裸机单机多卡训练modelzoo模型报错

  • Post author:
  • Post category:其他


环境

1、服务器:Atlas800-9000(Arm+Ascend),裸机。

2、驱动和软件包:5.0.3.1商用版本

3、mindspore:1.5.0


【操作步骤&问题现象】

1、配置完环境后从MindSpore官方modelzoo拉取resnet代码。

2、单机单卡训练正常(run_standalone_train.sh)。

3、使用models/hccl_tools.py生成对应的rank_table.json文件。

4、使用0,1卡进行单机多卡训练(2卡训练和8卡训练报错一致,方便起见使用2卡),报错。

5、尝试多台atlas800设备,均存在相同错误。

export ASCEND_SLOG_PRINT_TO_STDOUT=1,配置这个环境变量才能看到真实的底层报错。



版权声明:本文为weixin_45666880原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。