问题:
CUDA error: out of memory
CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1.
原因:
查看了内存是足的,估计是默认使用gpus 0 被占用了,换成别的GPU即可
解决:
在代码最前加上,(一定要在import torch之前,不然不会生效)
import os
os.environ["CUDA_VISIBLE_DEVICES"] = '1'
原理:
CUDA_VISIBLE_DEVICES限制一下使用的GPU。
比如有0,1,2,3号GPU,CUDA_VISIBLE_DEVICES=2,3,则当前进程的可见GPU只有物理上的2、3号GPU,此时它们的编号也对应变成了0、1,即cuda:0对应2号GPU,cuda:1对应3号GPU。
上述代码限定只有1号GPU以后,代码里面cuda编号仍然为0,即用同样的运行语句此时使用的是一号GPU,不存在占用问题了。
参考:
https://www.cnblogs.com/jisongxie/p/10276742.html
我是之前运行过该代码且没有问题,再次运行报错了,如果修改了代码发生此错误也可以用此方法打印详细的错误报告,进行相应的改正: