使用ppocr提供的表格识别模型SLANet在中文数据集上进行微调训练,效果比较差。相关的配置如下: 数据集:[好未来表格识别竞赛数据集] train:val = 14000: 2000 将原有的1.6w训练集进行了重新划分 预训练模型: ch_ppstructure_mobile_v2.0_SLANet 训练模型https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/ppstructure/docs/models_list.md 配置: configs/table/SLANet_ch.yml 屏蔽了字段 character_type: en 训练4个epoch后,acc为0.90,测试保存下来的best模型,效果并不好,可视化效果图如下所示
微调前推理模型效果: 微调后模型效果:
可以看到效果根本无法使用