4
使用nvidia官方pytorch23.01 docker镜像进行训练时,经常出现Floating point exception然后中断训练
python版本3.8.10
使用win11系统训练时会出现训练完一个epoch后卡住,不继续训练,任务管理器cuda占用降到0,ctrl+c无法结束,只能关掉cmd窗口重新打开,python版本3.9.0,显卡为RTX 4090,cuda11.3
使用nvidia官方pytorch23.01 docker镜像进行训练时,经常出现Floating point exception然后中断训练
python版本3.8.10
使用win11系统训练时会出现训练完一个epoch后卡住,不继续训练,任务管理器cuda占用降到0,ctrl+c无法结束,只能关掉cmd窗口重新打开,python版本3.9.0,显卡为RTX 4090,cuda11.3
Docker镜像比较不稳定,长期用的话,不建议使用该方式
但是使用windows训练的时候也会出现问题
Python 3.9.13 可以
batch size有试着调整过吗
切换到win10系统,使用3.9.8版本的python之后没有出现报错了