[PaddlePaddle/PaddleOCR]基于ch_ppstructure_mobile_v2.0_SLANet_train的表格训练。样本数据需要有多少？我加了5张。训练完没有效果。连原来可以识别的都出问题了

系统环境/System Environment： ubuntu20.04
版本号/Version：Paddle： PaddleOCR：问题相关组件/Related components： paddle 1.0.2 paddle-bfloat 0.1.2 paddle2onnx 0.9.7 paddlefsl 1.1.0 paddlenlp 2.4.1 paddleocr 2.6.1.2 paddlepaddle-gpu 2.4.1.post116 pandas 1.1.5 pandocfilters 1.5.0
运行指令/Command Code：
完整报错/Complete Error Message：

rexzhengzhihong

我现在是情况是80%的表格可以用ch_ppstructure_mobile_v2.0_SLANet_train正确预测。但是有20%左右的有问题。假设有问题的表格样式大概有30中。那一种表格样式我需要在pplabel打多少的标签样本呢？

rexzhengzhihong

怎样判断表格识别结果是正确的？这个线完全看不出来是正确分割了

希望的结果如下

nissansz

我是看html结果

rexzhengzhihong

确实有单元格不准，。但是html结果是正确的

rexzhengzhihong

有训练自己的表格模型吗？准确率达到多少了？

nissansz

准确率很高啊。0.99999。但是还是会出现错行的问题。不知道为啥

rexzhengzhihong

可以分享一下训练模型，我试试？

nissansz

就是完整官网的步骤。预训练模型也是官网的

rexzhengzhihong

怎样把html结果转为xlsx？

WilliamQf-AI

可以加微信 nlanguage讨论？

nissansz

回答