[PaddlePaddle/PaddleOCR]训练图和label 里如何让每个字符的出现频率类似,尤其是生僻字

2024-05-14 629 views
9
  • 系统环境/System Environment:win10
  • 版本号/Version:Paddle: PaddleOCR:2.5 问题相关组件/Related components:
  • 运行指令/Command Code:
  • 完整报错/Complete Error Message:

训练图和label 里如何让每个字符的出现频率类似,尤其是生僻字

回答

2

我知道,你说的是识别模型,可以数据均衡。

8

数据均衡怎么实现?

6

可以采用数据重采样,例如扩增生僻字图片进行copy-paste等方法。

8

image

怎么模拟这种效果?有没有python代码,方法?

5

styletext不太好,只支持部分语种。而且效果也不接近

7

resnet34 默认学习率    learning_rate: 0.0005 训练到一定准确度后没法继续改善,能修改lr继续提高准确率吗?修改多少比较好?

2

这个可以看你的设置,如果bs增大了,可以采用更大的学习率。另外设置阶梯学习率,例如0.0005、0.0001、0.001、0.002、0.00005等进行尝试,找到适合的学习率在附近微调。

9

yml怎么改成resnet18或其他backbone,

1

yml怎么改成resnet18或其他backbone,改成这些backbone, crnn还能训练吗?源代码要不要改?