[PaddlePaddle/PaddleOCR]KIE训练按照文档训练自己的数据集出错

2022/10/13 01:02:57] ppocr INFO: Architecture : [2022/10/13 01:02:57] ppocr INFO: Backbone : [2022/10/13 01:02:57] ppocr INFO: checkpoints : ../output/ser_vi_layoutxlm_xfund_zh/best_accuracy [2022/10/13 01:02:57] ppocr INFO: mode : vi [2022/10/13 01:02:57] ppocr INFO: name : LayoutXLMForSer [2022/10/13 01:02:57] ppocr INFO: num_classes : 35 [2022/10/13 01:02:57] ppocr INFO: pretrained : True [2022/10/13 01:02:57] ppocr INFO: Transform : None [2022/10/13 01:02:57] ppocr INFO: algorithm : LayoutXLM [2022/10/13 01:02:57] ppocr INFO: model_type : kie [2022/10/13 01:02:57] ppocr INFO: Eval : [2022/10/13 01:02:57] ppocr INFO: dataset : [2022/10/13 01:02:57] ppocr INFO: data_dir : ../train_data/Drive/ocr_det_val/image [2022/10/13 01:02:57] ppocr INFO: label_file_list : ['../train_data/Drive/ocr_det_val/ocr_test_label.json'] [2022/10/13 01:02:57] ppocr INFO: name : SimpleDataSet [2022/10/13 01:02:57] ppocr INFO: transforms : [2022/10/13 01:02:57] ppocr INFO: DecodeImage : [2022/10/13 01:02:57] ppocr INFO: channel_first : False [2022/10/13 01:02:57] ppocr INFO: img_mode : RGB [2022/10/13 01:02:57] ppocr INFO: VQATokenLabelEncode : [2022/10/13 01:02:57] ppocr INFO: algorithm : LayoutXLM [2022/10/13 01:02:57] ppocr INFO: class_path : ../train_data/Drive/classes_list.txt [2022/10/13 01:02:57] ppocr INFO: contains_re : False [2022/10/13 01:02:57] ppocr INFO: order_method : tb-yx [2022/10/13 01:02:57] ppocr INFO: use_textline_bbox_info : True [2022/10/13 01:02:57] ppocr INFO: VQATokenPad : [2022/10/13 01:02:57] ppocr INFO: max_seq_len : 512 [2022/10/13 01:02:57] ppocr INFO: return_attention_mask : True [2022/10/13 01:02:57] ppocr INFO: VQASerTokenChunk : [2022/10/13 01:02:57] ppocr INFO: max_seq_len : 512 [2022/10/13 01:02:57] ppocr INFO: Resize : [2022/10/13 01:02:57] ppocr INFO: size : [224, 224] [2022/10/13 01:02:57] ppocr INFO: NormalizeImage : [2022/10/13 01:02:57] ppocr INFO: mean : [123.675, 116.28, 103.53] [2022/10/13 01:02:57] ppocr INFO: order : hwc [2022/10/13 01:02:57] ppocr INFO: scale : 1 [2022/10/13 01:02:57] ppocr INFO: std : [58.395, 57.12, 57.375] [2022/10/13 01:02:57] ppocr INFO: ToCHWImage : None [2022/10/13 01:02:57] ppocr INFO: KeepKeys : [2022/10/13 01:02:57] ppocr INFO: keep_keys : ['input_ids', 'bbox', 'attention_mask', 'token_type_ids', 'image', 'labels'] [2022/10/13 01:02:57] ppocr INFO: loader : [2022/10/13 01:02:57] ppocr INFO: batch_size_per_card : 8 [2022/10/13 01:02:57] ppocr INFO: drop_last : False [2022/10/13 01:02:57] ppocr INFO: num_workers : 4 [2022/10/13 01:02:57] ppocr INFO: shuffle : False [2022/10/13 01:02:57] ppocr INFO: Global : [2022/10/13 01:02:57] ppocr INFO: cal_metric_during_train : False [2022/10/13 01:02:57] ppocr INFO: distributed : False [2022/10/13 01:02:57] ppocr INFO: epoch_num : 200 [2022/10/13 01:02:57] ppocr INFO: eval_batch_step : [0, 19] [2022/10/13 01:02:57] ppocr INFO: infer_img : ../ppstructure/docs/kie/input/zh_val_42.jpg [2022/10/13 01:02:57] ppocr INFO: kie_det_model_dir : None [2022/10/13 01:02:57] ppocr INFO: kie_rec_model_dir : None [2022/10/13 01:02:57] ppocr INFO: log_smooth_window : 10 [2022/10/13 01:02:57] ppocr INFO: print_batch_step : 10 [2022/10/13 01:02:57] ppocr INFO: save_epoch_step : 2000 [2022/10/13 01:02:57] ppocr INFO: save_inference_dir : None [2022/10/13 01:02:57] ppocr INFO: save_model_dir : ../output/ser_vi_layoutxlm_xdrive_zh [2022/10/13 01:02:57] ppocr INFO: save_res_path : ../output/ser/xdrive_zh/res [2022/10/13 01:02:57] ppocr INFO: seed : 2022 [2022/10/13 01:02:57] ppocr INFO: use_gpu : True [2022/10/13 01:02:57] ppocr INFO: use_visualdl : False [2022/10/13 01:02:57] ppocr INFO: Loss : [2022/10/13 01:02:57] ppocr INFO: key : backbone_out [2022/10/13 01:02:57] ppocr INFO: name : VQASerTokenLayoutLMLoss [2022/10/13 01:02:57] ppocr INFO: num_classes : 35 [2022/10/13 01:02:57] ppocr INFO: Metric : [2022/10/13 01:02:57] ppocr INFO: main_indicator : hmean [2022/10/13 01:02:57] ppocr INFO: name : VQASerTokenMetric [2022/10/13 01:02:57] ppocr INFO: Optimizer : [2022/10/13 01:02:57] ppocr INFO: beta1 : 0.9 [2022/10/13 01:02:57] ppocr INFO: beta2 : 0.999 [2022/10/13 01:02:57] ppocr INFO: lr : [2022/10/13 01:02:57] ppocr INFO: epochs : 200 [2022/10/13 01:02:57] ppocr INFO: learning_rate : 5e-05 [2022/10/13 01:02:57] ppocr INFO: name : Linear [2022/10/13 01:02:57] ppocr INFO: warmup_epoch : 2 [2022/10/13 01:02:57] ppocr INFO: name : AdamW [2022/10/13 01:02:57] ppocr INFO: regularizer : [2022/10/13 01:02:57] ppocr INFO: factor : 0.0 [2022/10/13 01:02:57] ppocr INFO: name : L2 [2022/10/13 01:02:57] ppocr INFO: PostProcess : [2022/10/13 01:02:57] ppocr INFO: class_path : ../train_data/Drive/classes_list.txt [2022/10/13 01:02:57] ppocr INFO: name : VQASerTokenLayoutLMPostProcess [2022/10/13 01:02:57] ppocr INFO: Train : [2022/10/13 01:02:57] ppocr INFO: dataset : [2022/10/13 01:02:57] ppocr INFO: data_dir : ../train_data/Drive/ocr_det_training/image [2022/10/13 01:02:57] ppocr INFO: label_file_list : ['../train_data/Drive/ocr_det_training/ocr_train_label.json'] [2022/10/13 01:02:57] ppocr INFO: name : SimpleDataSet [2022/10/13 01:02:57] ppocr INFO: ratio_list : [1.0] [2022/10/13 01:02:57] ppocr INFO: transforms : [2022/10/13 01:02:57] ppocr INFO: DecodeImage : [2022/10/13 01:02:57] ppocr INFO: channel_first : False [2022/10/13 01:02:57] ppocr INFO: img_mode : RGB [2022/10/13 01:02:57] ppocr INFO: VQATokenLabelEncode : [2022/10/13 01:02:57] ppocr INFO: algorithm : LayoutXLM [2022/10/13 01:02:57] ppocr INFO: class_path : ../train_data/Drive/classes_list.txt [2022/10/13 01:02:57] ppocr INFO: contains_re : False [2022/10/13 01:02:57] ppocr INFO: order_method : tb-yx [2022/10/13 01:02:57] ppocr INFO: use_textline_bbox_info : True [2022/10/13 01:02:57] ppocr INFO: VQATokenPad : [2022/10/13 01:02:57] ppocr INFO: max_seq_len : 512 [2022/10/13 01:02:57] ppocr INFO: return_attention_mask : True [2022/10/13 01:02:57] ppocr INFO: VQASerTokenChunk : [2022/10/13 01:02:57] ppocr INFO: max_seq_len : 512 [2022/10/13 01:02:57] ppocr INFO: Resize : [2022/10/13 01:02:57] ppocr INFO: size : [224, 224] [2022/10/13 01:02:57] ppocr INFO: NormalizeImage : [2022/10/13 01:02:57] ppocr INFO: mean : [123.675, 116.28, 103.53] [2022/10/13 01:02:57] ppocr INFO: order : hwc [2022/10/13 01:02:57] ppocr INFO: scale : 1 [2022/10/13 01:02:57] ppocr INFO: std : [58.395, 57.12, 57.375] [2022/10/13 01:02:57] ppocr INFO: ToCHWImage : None [2022/10/13 01:02:57] ppocr INFO: KeepKeys : [2022/10/13 01:02:57] ppocr INFO: keep_keys : ['input_ids', 'bbox', 'attention_mask', 'token_type_ids', 'image', 'labels'] [2022/10/13 01:02:57] ppocr INFO: loader : [2022/10/13 01:02:57] ppocr INFO: batch_size_per_card : 8 [2022/10/13 01:02:57] ppocr INFO: drop_last : False [2022/10/13 01:02:57] ppocr INFO: num_workers : 4 [2022/10/13 01:02:57] ppocr INFO: shuffle : True [2022/10/13 01:02:57] ppocr INFO: profiler_options : None

ValueError: (InvalidArgument) The 'shape' attribute in ReshapeOp is invalid. The input tensor X'size must be divisible by known capacity of 'shape'. But received X's shape = [8, 512, 7], X's size = 28672, 'shape' is [-1, 35], known capacity of 'shape' is -35. [Hint: Expected output_shape[unk_dim_idx] capacity == -in_size, but received output_shape[unk_dim_idx] capacity:-28665 != -in_size:-28672.] (at /paddle/paddle/fluid/operators/reshape_op.cc:190) 按照错误说的监测种类需要能够被28672整除，我算了下按照2n-1 这样在0-100就只有4个种类满足要求

husiluanxiang

麻烦按照这里的地址重新安装下paddlenlp

https://github.com/PaddlePaddle/PaddleOCR/blob/558b2a719efc8761539649ed676ff405401a90a7/ppstructure/kie/requirements.txt#L7

littletomatodonkey

你好我重新安装了可是还是报一样的错误，种类是否还是按照2n-1来填写

husiluanxiang

请问你解决了吗？我遇到了同样的问题。

YmanChris

请问你解决了吗？我遇到了同样的问题。没解决，他那个例子应该是写死了就是4类才能用最后的输出总是512*7

husiluanxiang

请问你解决了吗？我遇到了同样的问题。没解决，他那个例子应该是写死了就是4类才能用最后的输出总是512*7

我们是否可以改写他的7？

YmanChris

请问你解决了吗？我遇到了同样的问题。没解决，他那个例子应该是写死了就是4类才能用最后的输出总是512*7

我们是否可以改写他的7？

我在看好不好改

husiluanxiang

请问你解决了吗？我遇到了同样的问题。没解决，他那个例子应该是写死了就是4类才能用最后的输出总是512*7

我们是否可以改写他的7？

我在看好不好改

老哥，我看了下代码，要不你不用checkpoint试试？

YmanChris

请问你解决了吗？我遇到了同样的问题。没解决，他那个例子应该是写死了就是4类才能用最后的输出总是512*7

我们是否可以改写他的7？

我在看好不好改

老哥，我看了下代码，要不你不用checkpoint试试？

没懂什么意思，能具体说下吗？？

husiluanxiang

请问你解决了吗？我遇到了同样的问题。没解决，他那个例子应该是写死了就是4类才能用最后的输出总是512*7

我们是否可以改写他的7？

我在看好不好改

老哥，我看了下代码，要不你不用checkpoint试试？

没懂什么意思，能具体说下吗？？

我们私说吧，V：y22620

YmanChris

你好，我遇到了一样的问题，请问有解决方法吗

AlenChuan

我想将识别结果输出为5个字段，加上other一共6个，也是报错说输出和输入不匹配，输出512*7

AlenChuan

请问你解决了吗？我遇到了同样的问题。没解决，他那个例子应该是写死了就是4类才能用最后的输出总是512*7

我们是否可以改写他的7？

我在看好不好改

老哥，我看了下代码，要不你不用checkpoint试试？

没懂什么意思，能具体说下吗？？

-o Architecture.Backbone.checkpoints=$pretrained_dir/best_accuracy \ 我去掉这一行，这个报错消失了

XiYuan68

[PaddlePaddle/PaddleOCR]KIE训练按照文档训练自己的数据集出错

回答