[PaddlePaddle/PaddleOCR]表格识别模型微调训练效果比较差,如何改善

2024-05-15 966 views
2

使用ppocr提供的表格识别模型SLANet在中文数据集上进行微调训练,效果比较差。相关的配置如下: 数据集:[好未来表格识别竞赛数据集] train:val = 14000: 2000 将原有的1.6w训练集进行了重新划分 预训练模型: ch_ppstructure_mobile_v2.0_SLANet 训练模型https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/ppstructure/docs/models_list.md 配置: configs/table/SLANet_ch.yml 屏蔽了字段 character_type: en 训练4个epoch后,acc为0.90,测试保存下来的best模型,效果并不好,可视化效果图如下所示 image

微调前推理模型效果: image image image image 微调后模型效果: image image image image

可以看到效果根本无法使用

回答

6

同样也测试了提供的tablemaster模型在相同测试集上的效果如下:

image image image

image 效果也是比较差

5

需要先进行表格区域检测,再进行表格识别,看你的可视化并不是单纯的表格图片

8

需要先进行表格区域检测,再进行表格识别,看你的可视化并不是单纯的表格图片

确实并不是单纯的表格图片。ppocr有端到端表格识别方案吗,融合了表格检测和结构解析模块的。

8

我调整了一些训练参数,效果有改善一些,但仍然达不到使用效果。 测试和训练数据存在倾斜、扭曲等现象,不知道SLANet是否是否这类场景的数据 image image image image

2

采用slanet在合成表格数据集上进行微调后,测试效果如下: 数据集(https://aistudio.baidu.com/aistudio/datasetdetail/165849 ) 单元格的边界不是特别准,这种边界不准的问题改如何进行优化 image image image image image

测试效果已经很可以了吧,可以看下转化后的Excel效果是否能满足需求

4

采用slanet在合成表格数据集上进行微调后,测试效果如下: 数据集(https://aistudio.baidu.com/aistudio/datasetdetail/165849 ) 单元格的边界不是特别准,这种边界不准的问题改如何进行优化 image image image image image

请教一下您是如何进行微调的呀?

3

你这个训练参数在哪里呀?

8

采用slanet在合成表格数据集上进行微调后,测试效果如下: 数据集(https://aistudio.baidu.com/aistudio/datasetdetail/165849 ) 单元格的边界不是特别准,这种边界不准的问题改如何进行优化 image image image image image

请教一下您是如何进行微调的呀?

需要自己标注数据吧

2

能发几条数据看看吗,我看下我的数据有没有错,还有配置文件是默认的吗?

8

有微调后的模型可以分享吗?微信nlanguage

4

微调后,只能对生成的表格效果好,泛化到实际表格效果差,怎么解决?

8

我调整了一些训练参数,效果有改善一些,但仍然达不到使用效果。 测试和训练数据存在倾斜、扭曲等现象,不知道SLANet是否是否这类场景的数据 image image image image

都微调了哪些参数呢,我这边finetune的效果也比较差,用的好未来的训练数据,下一步试试把好未来数据里的表格裁剪出来识别

9

你会将https://github.com/microsoft/table-transformer 检测和识别模型转换成onnx吗?然后怎么用这个onnx模型?

3

我用大单元格图训练,然后用来检测简单的实际图, 也会有这种 '<td', '>' 漏掉中间的colspan信息,不知道怎么回事,你有碰到吗?怎么解决?

image

20231022220750

5

可以分享下百度网盘的 [好未来表格识别竞赛数据集] ? 官网好像没看到这个数据集了

6

我也是acc很高,但是实际不可用,可能是eval的代码有问题