环境
1、服务器:Atlas800-9000(Arm+Ascend),裸机。
2、驱动和软件包:5.0.3.1商用版本
3、mindspore:1.5.0
【操作步骤&问题现象】
1、配置完环境后从MindSpore官方modelzoo拉取resnet代码。
2、单机单卡训练正常(run_standalone_train.sh)。
3、使用models/hccl_tools.py生成对应的rank_table.json文件。
4、使用0,1卡进行单机多卡训练(2卡训练和8卡训练报错一致,方便起见使用2卡),报错。
5、尝试多台atlas800设备,均存在相同错误。
export ASCEND_SLOG_PRINT_TO_STDOUT=1,配置这个环境变量才能看到真实的底层报错。
版权声明:本文为weixin_45666880原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。