[PaddlePaddle/PaddleOCR]pubtab_dataset.py 加载模型图片时会堵塞，不知道是不是标签问题，还是图片问题，怎么debug排查？怎么解决堵塞？

请提供下述完整信息以便快速定位问题/Please provide the following information to quickly locate the problem

系统环境/System Environment：
版本号/Version：Paddle： PaddleOCR：2.7.1 问题相关组件/Related components：
运行指令/Command Code：
完整报错/Complete Error Message：

请尽量不要包含图片在问题中/Please try to not include the image in the issue.

pubtab_dataset.py 加载模型图片时会堵塞，不知道是不是标签问题，还是图片问题，怎么debug排查？怎么解决堵塞？

nissansz

可以修改一下这里的代码，去掉try:

https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.7/ppocr/data/pubtab_dataset.py#L96-L125

TingquanGao

去掉try，如果图片有问题，不会报错，是直接跳过堵塞的图片，继续读取下一张图训练？

nissansz

去掉try，如果图片有问题，不会报错，是直接跳过堵塞的图片，继续读取下一张图训练？

nissansz

还有就是我用pubnettab 和WTW等数据进行训练时，准确率有时会从原有的0.65左右一下子直接降到0.000.这种怎么解决？

还有很复杂的内嵌单元格的表格，这种识别效果好像很差，怎么准备数据？

nissansz

针对复杂内嵌单元格的识别问题，我们目前也还在努力优化中，尚无法提供明确的优化建议，如有进展我们也会在PaddleOCR及时更新发布，欢迎关注我们之后的工作~

TingquanGao

去掉try，如果图片有问题，不会报错，是直接跳过堵塞的图片，继续读取下一张图训练？

使用try是为了避免因为个别图像文件读取报错导致训练进程退出，如果你怀疑加载图片时阻塞，那需要修改这里的代码来排查。

TingquanGao

去掉try catch，目前没有堵塞了。

nissansz

那好奇怪，也没有报错吗？

TingquanGao

也没有报错。就是偶尔会堵塞。去掉try catch 就没有了。生成的表格类似以下效果。 colspan0000001999 plain0000001992

好像识别效果还不行。

nissansz

好像还是会堵塞。

nissansz

那这样看起来或许不是图片读取阻塞了。

TingquanGao

目前的表格识别模型对于跨行跨列的识别效果确实不理想，我们还在努力优化中。

TingquanGao

那会是什么问题呢？就是在某个时刻就不动了。不用自己生成的图片好像不会堵塞。

nissansz

可以定位一下具体是哪张图导致了阻塞吗？

TingquanGao

就是不知道怎么定位

nissansz

这里的代码没有打出信息吗：

https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.7/ppocr/data/pubtab_dataset.py#L122-L124

TingquanGao

没有打印，直接不动

nissansz

2000张训练1-2轮时可以正常，到新一轮时可能就会在某个地方被堵住

nissansz

那应该不是dataloader卡住了，因为一轮训练已经遍历了全部的训练图片。hang住的时候，gpu利用率正常吗？

TingquanGao

没看gpu，如果gpu爆了，可以怎么解决？只能关闭，重新启动训练？

nissansz

[PaddlePaddle/PaddleOCR]pubtab_dataset.py 加载模型图片时会堵塞，不知道是不是标签问题，还是图片问题，怎么debug排查？怎么解决堵塞？

回答