[babysor/MockingBird]训练时出现问题

2024-07-05 436 views
4

使用nvidia官方pytorch23.01 docker镜像进行训练时,经常出现Floating point exception然后中断训练

python版本3.8.10 H)D5(2KGO~U@}C7B KS9V}Q

使用win11系统训练时会出现训练完一个epoch后卡住,不继续训练,任务管理器cuda占用降到0,ctrl+c无法结束,只能关掉cmd窗口重新打开,python版本3.9.0,显卡为RTX 4090,cuda11.3

回答

1

Docker镜像比较不稳定,长期用的话,不建议使用该方式

3

但是使用windows训练的时候也会出现问题

1

Python 3.9.13 可以

6

batch size有试着调整过吗

6

切换到win10系统,使用3.9.8版本的python之后没有出现报错了