CUDA error: out of memory

  • Post author:
  • Post category:其他



问题:

CUDA error: out of memory

CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect.

For debugging consider passing CUDA_LAUNCH_BLOCKING=1.


原因:

查看了内存是足的,估计是默认使用gpus 0 被占用了,换成别的GPU即可


解决:

在代码最前加上,(一定要在import torch之前,不然不会生效)

import os
os.environ["CUDA_VISIBLE_DEVICES"] = '1'


原理:

CUDA_VISIBLE_DEVICES限制一下使用的GPU。

比如有0,1,2,3号GPU,CUDA_VISIBLE_DEVICES=2,3,则当前进程的可见GPU只有物理上的2、3号GPU,此时它们的编号也对应变成了0、1,即cuda:0对应2号GPU,cuda:1对应3号GPU。

上述代码限定只有1号GPU以后,代码里面cuda编号仍然为0,即用同样的运行语句此时使用的是一号GPU,不存在占用问题了。

参考:

https://www.cnblogs.com/jisongxie/p/10276742.html

我是之前运行过该代码且没有问题,再次运行报错了,如果修改了代码发生此错误也可以用此方法打印详细的错误报告,进行相应的改正:


CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below m_氵文大师的博客-CSDN博客



版权声明:本文为ayuuuuu原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。