[PaddlePaddle/Paddle]Paddle OCR时遇到错误 操作系统直接将代码关闭paddle::pybind::ThrowExceptionToPython(std::__exception_ptr::exception_ptr)

2024-03-22 776 views
0
bug描述 Describe the Bug

在进行finetune的时候 训练公开数据集 在本地CPU机器上能运行 在Linux服务器上使用gpu无法运行 能跑几个batch 然后突然停止 显存 CPU占用都无异常 并且无代码报错

python tools/train.py


[2023/02/24 01:25:00] ppocr INFO: epoch: [1/120], global_step: 2, lr: 0.001000, loss: -0.579372, loss_shrink_maps: 0.312662, loss_threshold_maps: 20.220646, loss_binary_maps: 0.000001, avg_reader_cost: 0.00045 s, avg_batch_cost: 0.68065 s, avg_samples: 1.0, ips: 1.46919 samples/s, eta: 4 days, 0:36:35
[2023/02/24 01:25:00] ppocr INFO: epoch: [1/120], global_step: 3, lr: 0.001000, loss: 0.000000, loss_shrink_maps: 0.000000, loss_threshold_maps: 0.000000, loss_binary_maps: 0.000000, avg_reader_cost: 0.00060 s, avg_batch_cost: 0.61854 s, avg_samples: 1.0, ips: 1.61670 samples/s, eta: 2 days, 23:16:43
[2023/02/24 01:25:01] ppocr INFO: epoch: [1/120], global_step: 4, lr: 0.001000, loss: 0.000000, loss_shrink_maps: 0.000000, loss_threshold_maps: 0.000000, loss_binary_maps: 0.000000, avg_reader_cost: 0.00061 s, avg_batch_cost: 0.64394 s, avg_samples: 1.0, ips: 1.55293 samples/s, eta: 2 days, 10:49:28

C++ Traceback (most recent call last): 0 paddle::pybind::ThrowExceptionToPython(std::__exception_ptr::exception_ptr)

Error Message Summary: FatalError: Process abort signal is detected by the operating system. [TimeInfo: Aborted at 1677201901 (unix time) try "date -d @1677201901" if you are using GNU date ] [SignalInfo: SIGABRT (@0x1035) received by PID 4149 (TID 0x7f1393bd7080) from PID 4149 ]```

其他补充信息 Additional Supplementary Information

显卡是 M40

回答

7

看一下显存是不是被占用,启动train之前先释放一下

6

内存30G空闲; 显存24G空闲

9

我也出现了这样的问题

0

请问解决了吗

2

我是在我修改后的Uhrnet跑cityscapes上出现的,问题和上面一摸一样,代码无报错,跑几轮就报错了

--------------------------------------
C++ Traceback (most recent call last):
--------------------------------------
0   paddle::pybind::ThrowExceptionToPython(std::__exception_ptr::exception_ptr)

----------------------
Error Message Summary:
----------------------
FatalError: `Process abort signal` is detected by the operating system.
  [TimeInfo: *** Aborted at 1679993559 (unix time) try "date -d @1679993559" if you are using GNU date ***]
  [SignalInfo: *** SIGABRT (@0xe94) received by PID 3732 (TID 0x7f50afcb44c0) from PID 3732 ***]
4

没,百度只挑自己会的回答,我看过好几个类似的ISSUE了,都不理人

5

我今天,刚刚解决 应该是你的bach_size设置过大,导致显存吃力导致的。并请将bach_size设置为2的n次方,以免不必要的错误

7

哥们设置成1都没用

5

watch -n 0.1 -d nvidia-smi命令,查查显存占用,我的是显存爆了,也报这个错,可以组个云服务器跑就不会报错了。

6

占用600M 显存内存占用我肯定看过了

3

我这边也出现了一个相同的错误,不是由于显存导致,而是在错误的数据索引出错,在我的代码中,针对list对象,使用了key in list的查询操作,建议可以使用pdb排查具体的报错位置,大概率能找到出错原因。