[PaddlePaddle/PaddleOCR]基于ch_ppstructure_mobile_v2.0_SLANet_train的表格训练。样本数据需要有多少?我加了5张。训练完没有效果。连原来可以识别的都出问题了

2024-05-14 989 views
2
  • 系统环境/System Environment: ubuntu20.04
  • 版本号/Version:Paddle: PaddleOCR: 问题相关组件/Related components: paddle 1.0.2 paddle-bfloat 0.1.2 paddle2onnx 0.9.7 paddlefsl 1.1.0 paddlenlp 2.4.1 paddleocr 2.6.1.2 paddlepaddle-gpu 2.4.1.post116 pandas 1.1.5 pandocfilters 1.5.0
  • 运行指令/Command Code:
  • 完整报错/Complete Error Message:

回答

1

我现在是情况是80%的表格可以用ch_ppstructure_mobile_v2.0_SLANet_train正确预测。但是有20%左右的有问题。假设有问题的表格样式大概有30中。那一种表格样式我需要在pplabel打多少的标签样本呢?

3

怎样判断表格识别结果是正确的?这个线完全看不出来是正确分割了 bz

希望的结果如下 image

7

我是看html结果

8

确实有单元格不准,。但是html结果是正确的

1

有训练自己的表格模型吗?准确率达到多少了?

9

准确率很高啊。0.99999。但是还是会出现错行的问题。不知道为啥

7

可以分享一下训练模型,我试试?

7

就是完整官网的步骤。预训练模型也是官网的

5

怎样把html结果转为xlsx?

1

可以加微信 nlanguage讨论?