基于CUDAoutofmemory的一种神奇解决方式.docx

下载文档

2
0
约1.63千字
约 3页
2025-06-25 发布于四川
举报
版权申诉
保障服务

基于CUDAoutofmemory的一种神奇解决方式.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第

基于CUDAoutofmemory的一种神奇解决方式

目录CUDAoutofmemory的解决CUDAerror:outofmemory问题解决思路溯寻总结

CUDAoutofmemory的解决

我的输入样本维度是(1000,12,24,72)，一开始我是这么输入数据的：

trainer.train(x_train,t_train,x_val,t_val)

发现必溢出，后来我取出其中400个样本输入：

trainer.train(x_train[:400],t_train[:400],x_val,t_val)

发现不溢出了，训练正常，然后我把400删掉，但没删冒号：

trainer.train(x_train[:],t_train[:],x_val,t_val)

竟然也没有溢出！！！虽然训练速度降了，但是也能正常训练，我不是很懂原理是啥，好神奇！

但是样本量一大起来，即使用冒号法还是可能会溢出。比方说我后来把4000个样本作为x/t_train：

x_train.shape

(4000,12,24,72)

t_train.shape

(4000,24)

trainer.train(x_train[:],t_train[:],x_val,t_val)

RuntimeError:CUDAoutofmemory...

之所以说可能会溢出，是因为确实是有小概率能正常训练的，但是大部分情况还是会outofmemory

不过这真的是一个神奇的方法，能从一定程度上解决CUDAoutofmemory的问题。希望大佬能解释一下这其中的原理~谢谢！

-------------------------------------------------------------------

再附上两个我昨天看到的两种不同的解决方案。

一个是减少带梯度的中间变量（即非叶子节点）。简言之，能一行代码搞定的，尽量不要写成多行，即使写成多行，也要尽可能减少新变量的建立。

另一个是在eval的时候，让所有的变量都不带梯度。只需要添加一行代码：

withtorch.no_grad():

???outputs=Net_(inputs)

在with语句里的所有变量requires_grad都是False。

CUDAerror:outofmemory问题

本人遇到的问题是在训练是正常，一到验证时就会出现cudaerror:outofmemory的问题

解决思路溯寻

1.首先就是考虑减少batch_size和num_worker，对于我的情况不奏效

2.然后找到pin_memory发现是设置的True，改为false，仍旧不管用

3.包括把

?#EmptyGPUcache

????iftorch.cuda.is_available():

??????torch.cuda.empty_cache()

放到报错位置的前后，不奏效

4.后来再聚焦问题关键，是一到验证就会出问题，所以专门查攻略，我初步怀疑是因为验证没有参与反向传播，梯度累积，内存爆了，但当时代码中有withtorch.no_grad():，所以并没有发现关键，知道看到别人里面forword是放在withtorch.no_grad()后面的，所以最后

withtorch.no_grad():

????????#Forwardpass

????????loss,np_probs,hv_logits=self.forward(images,targets)

问题解决！

总结

以上为个人经验，希望能给大家一个参考，也希望大家多多支持。

您可能关注的文档

文档评论（0）

182****6697 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

基于CUDAoutofmemory的一种神奇解决方式.docx