[PaddlePaddle/PaddleOCR]中文图片转docx出现 ppocr ERROR: error in layout recovery image:111_01, err msg: list index out of range

2024-05-14 484 views
4
  • 系统环境/System Environment:Win11
  • 版本号/Version:Paddle:2.4.2 PaddleOCR: 2.6.1.3 问题相关组件/Related components:
  • 运行指令/Command Code: paddleocr --image_dir=111_01.png --type=structure --recovery=true
  • 完整报错/Complete Error Message: ··· (venv) D:\VScodeProjects\paddlePDF\PaddleOCR\test_pdf>paddleocr --image_dir=11101.png --type=structure --recovery=true
    D:\VScodeProjects\paddlePDF\PaddleOCR\venv\lib\site-packages\skimage\util\dtype.py:27: DeprecationWarning: np.bool8 is a deprecated alias for `np.bool
    `. (Deprecated NumPy 1.24) np.bool8: (False, True), [2023/03/05 23:17:56] ppocr DEBUG: Namespace(help='==SUPPRESS==', use_gpu=False, use_xpu=False, use_npu=False, ir_optim=True, use_tensorrt=False, min_subgraph_size=15, precision='fp32', gpu_mem=500, gpu_id=0, image_dir='111_01.png', page_num=0, det_algorithm='DB', det_model_dir='C:\Users\85175/.paddleocr/whl\det\ch\ch_PP-OCRv3_det_infer', det_limit_side_len=960, det_limit_type='max', det_box_type='quad', det_db_thresh=0.3, det_db_box_thresh=0.6, det_db_unclip_ratio=1.5, max_batch_size=10, use_dilation=False, det_db_score_mode='fast', det_east_score_thresh=0.8, det_east_cover_thresh=0.1, det_east_nms_thresh=0.2, det_sast_score_thresh=0.5, det_sast_nms_thresh=0.2, det_pse_thresh=0, det_pse_box_thresh=0.85, det_pse_min_area=16, det_pse_scale=1, scales=[8, 16, 32], alpha=1.0, beta=1.0, fourier_degree=5, rec_algorithm='SVTR_LCNet', rec_model_dir='C:\Users\85175/.paddleocr/whl\rec\ch\ch_PP-OCRv3_rec_infer', rec_image_inverse=True, rec_image_shape='3, 48, 320', rec_batch_num=6, max_text_length=25, rec_char_dict_path='D:\VScodeProjects\paddlePDF\PaddleOCR\venv\lib\site-packages\paddleocr\ppocr\utils\ppocr_keys_v1.txt', use_space_char=True, vis_font_path='./doc/fonts/simfang.ttf', drop_score=0.5, e2e_algorithm='PGNet', e2e_model_dir=None, e2e_limit_side_len=768, e2e_limit_type='max', e2e_pgnet_score_thresh=0.5, e2e_char_dict_path='./ppocr/utils/ic15_dict.txt', e2e_pgnet_valid_set='totaltext', e2e_pgnet_mode='fast', use_angle_cls=False, cls_model_dir=None, cls_image_shape='3, 48, 192', label_list=['0', '180'], cls_batch_num=6, cls_thresh=0.9, enable_mkldnn=False, cpu_threads=10, use_pdserving=False, warmup=False, sr_model_dir=None, sr_image_shape='3, 32, 128', sr_batch_num=1, draw_img_save_dir='./inference_results', save_crop_res=False, crop_res_save_dir='./output', use_mp=False, total_process_num=1, process_id=0, benchmark=False, save_log_path='./log_output/', show_log=True, use_onnx=False, output='./output', table_max_len=488, table_algorithm='TableAttn', table_model_dir='C:\Users\85175/.paddleocr/whl\table\ch_ppstructure_mobile_v2.0_SLANet_infer', merge_no_span_structure=True, table_char_dict_path='D:\VScodeProjects\paddlePDF\PaddleOCR\venv\lib\site-packages\paddleocr\ppocr\utils\dict\table_structure_dict_ch.txt', layout_model_dir='C:\Users\85175/.paddleocr/whl\layout\picodet_lcnet_x1_0_fgd_layout_cdla_infer', layout_dict_path='D:\VScodeProjects\paddlePDF\PaddleOCR\venv\lib\site-packages\paddleocr\ppocr\utils\dict\layout_dict\layout_cdla_dict.txt', layout_score_threshold=0.5, layout_nms_threshold=0.5, kie_algorithm='LayoutXLM', ser_model_dir=None, re_model_dir=None, use_visual_backbone=True, ser_dict_path='../train_data/XFUND/class_list_xfun.txt', ocr_order_method=None, mode='structure', image_orientation=False, layout=True, table=True, ocr=True, recovery=True, use_pdf2docx_api=False, lang='ch', det=True, rec=True, type='structure', ocr_version='PP-OCRv3', structure_version='PP-StructureV2') [2023/03/05 23:17:58] ppocr INFO: **111_01.png** [2023/03/05 23:17:58] ppocr INFO: processing 1/1 page: [2023/03/05 23:17:59] ppocr DEBUG: dt_boxes num : 2, elapse : 0.528217077255249 [2023/03/05 23:18:00] ppocr DEBUG: rec_res num : 2, elapse : 0.5043671131134033 [2023/03/05 23:18:01] ppocr DEBUG: dt_boxes num : 147, elapse : 0.5025341510772705 [2023/03/05 23:18:22] ppocr DEBUG: rec_res num : 147, elapse : 21.022994995117188 [2023/03/05 23:18:22] ppocr DEBUG: dt_boxes num : 0, elapse : 0.5237338542938232 [2023/03/05 23:18:22] ppocr DEBUG: rec_res num : 0, elapse : 0.0 [2023/03/05 23:18:23] ppocr DEBUG: dt_boxes num : 1, elapse : 0.4804248809814453 [2023/03/05 23:18:23] ppocr DEBUG: rec_res num : 1, elapse : 0.10202360153198242 [2023/03/05 23:18:23] ppocr DEBUG: dt_boxes num : 2, elapse : 0.4693446159362793 [2023/03/05 23:18:24] ppocr DEBUG: rec_res num : 2, elapse : 0.5513970851898193 [2023/03/05 23:18:25] ppocr DEBUG: dt_boxes num : 74, elapse : 0.45070409774780273 [2023/03/05 23:18:38] ppocr DEBUG: rec_res num : 74, elapse : 13.207148551940918 [2023/03/05 23:18:42] ppocr ERROR: error in layout recovery image:111_01, err msg: list index out of range ··· 转中文pdf也出现这个问题,发生在最后转docx的过程中。 生成了中间文件如下: 2023-03-05_233148

下面是这个要转换的图片: 111_01

回答

2

一样的问题,运行paddleocr --image_dir=/mnt/d/standards/001.pdf --type=structure --recovery=true --lang='ch'命令进行版面恢复时报错 err msg: list index out of range,日志信息如下: [2023/04/04 09:13:00] ppocr DEBUG: Namespace(help='==SUPPRESS==', use_gpu=False, use_xpu=False, use_npu=False, ir_optim=True, use_tensorrt=False, min_subgraph_size=15, precision='fp32', gpu_mem=500, image_dir='/mnt/d/standards/001.pdf', page_num=0, det_algorithm='DB', det_model_dir='/home/golft/.paddleocr/whl/det/ch/ch_PP-OCRv3_det_infer', det_limit_side_len=960, det_limit_type='max', det_box_type='quad', det_db_thresh=0.3, det_db_box_thresh=0.6, det_db_unclip_ratio=1.5, max_batch_size=10, use_dilation=False, det_db_score_mode='fast', det_east_score_thresh=0.8, det_east_cover_thresh=0.1, det_east_nms_thresh=0.2, det_sast_score_thresh=0.5, det_sast_nms_thresh=0.2, det_pse_thresh=0, det_pse_box_thresh=0.85, det_pse_min_area=16, det_pse_scale=1, scales=[8, 16, 32], alpha=1.0, beta=1.0, fourier_degree=5, rec_algorithm='SVTR_LCNet', rec_model_dir='/home/golft/.paddleocr/whl/rec/ch/ch_PP-OCRv3_rec_infer', rec_image_inverse=True, rec_image_shape='3, 48, 320', rec_batch_num=6, max_text_length=25, rec_char_dict_path='/home/golft/.local/lib/python3.10/site-packages/paddleocr/ppocr/utils/ppocr_keys_v1.txt', use_space_char=True, vis_font_path='./doc/fonts/simfang.ttf', drop_score=0.5, e2e_algorithm='PGNet', e2e_model_dir=None, e2e_limit_side_len=768, e2e_limit_type='max', e2e_pgnet_score_thresh=0.5, e2e_char_dict_path='./ppocr/utils/ic15_dict.txt', e2e_pgnet_valid_set='totaltext', e2e_pgnet_mode='fast', use_angle_cls=False, cls_model_dir=None, cls_image_shape='3, 48, 192', label_list=['0', '180'], cls_batch_num=6, cls_thresh=0.9, enable_mkldnn=False, cpu_threads=10, use_pdserving=False, warmup=False, sr_model_dir=None, sr_image_shape='3, 32, 128', sr_batch_num=1, draw_img_save_dir='./inference_results', save_crop_res=False, crop_res_save_dir='./output', use_mp=False, total_process_num=1, process_id=0, benchmark=False, save_log_path='./log_output/', show_log=True, use_onnx=False, output='./output', table_max_len=488, table_algorithm='TableAttn', table_model_dir='/home/golft/.paddleocr/whl/table/ch_ppstructure_mobile_v2.0_SLANet_infer', merge_no_span_structure=True, table_char_dict_path='/home/golft/.local/lib/python3.10/site-packages/paddleocr/ppocr/utils/dict/table_structure_dict_ch.txt', layout_model_dir='/home/golft/.paddleocr/whl/layout/picodet_lcnet_x1_0_fgd_layout_cdla_infer', layout_dict_path='/home/golft/.local/lib/python3.10/site-packages/paddleocr/ppocr/utils/dict/layout_dict/layout_cdla_dict.txt', layout_score_threshold=0.5, layout_nms_threshold=0.5, kie_algorithm='LayoutXLM', ser_model_dir=None, re_model_dir=None, use_visual_backbone=True, ser_dict_path='../train_data/XFUND/class_list_xfun.txt', ocr_order_method=None, mode='structure', image_orientation=False, layout=True, table=True, ocr=True, recovery=True, use_pdf2docx_api=False, lang='ch', det=True, rec=True, type='structure', ocr_version='PP-OCRv3', structure_version='PP-StructureV2') [2023/04/04 09:13:01] ppocr INFO: **/mnt/d/standards/001.pdf** Deprecation: 'getPixmap' removed from class 'Page' after v1.19.0 - use 'get_pixmap'. [2023/04/04 09:13:20] ppocr INFO: processing 1/49 page: [2023/04/04 09:13:21] ppocr DEBUG: dt_boxes num : 2, elapse : 0.344984769821167 [2023/04/04 09:13:21] ppocr DEBUG: rec_res num : 2, elapse : 0.396028995513916 [2023/04/04 09:13:22] ppocr DEBUG: dt_boxes num : 1, elapse : 0.27755141258239746 [2023/04/04 09:13:22] ppocr DEBUG: rec_res num : 1, elapse : 0.07776904106140137 [2023/04/04 09:13:22] ppocr DEBUG: dt_boxes num : 4, elapse : 0.26540374755859375 [2023/04/04 09:13:22] ppocr DEBUG: rec_res num : 4, elapse : 0.3368558883666992 [2023/04/04 09:13:23] ppocr DEBUG: dt_boxes num : 3, elapse : 0.2734191417694092 [2023/04/04 09:13:23] ppocr DEBUG: rec_res num : 3, elapse : 0.2253563404083252 [2023/04/04 09:13:23] ppocr DEBUG: dt_boxes num : 1, elapse : 0.276317834854126 [2023/04/04 09:13:23] ppocr DEBUG: rec_res num : 1, elapse : 0.10135054588317871 [2023/04/04 09:13:24] ppocr DEBUG: dt_boxes num : 2, elapse : 0.270888090133667 [2023/04/04 09:13:24] ppocr DEBUG: rec_res num : 2, elapse : 0.08449339866638184 [2023/04/04 09:13:24] ppocr DEBUG: dt_boxes num : 1, elapse : 0.2634105682373047 [2023/04/04 09:13:24] ppocr DEBUG: rec_res num : 1, elapse : 0.07193946838378906 [2023/04/04 09:13:24] ppocr DEBUG: dt_boxes num : 1, elapse : 0.26424646377563477 [2023/04/04 09:13:24] ppocr DEBUG: rec_res num : 1, elapse : 0.06788802146911621 .....(此处省略一些雷同的信息) [2023/04/04 09:19:30] ppocr INFO: processing 40/49 page: [2023/04/04 09:19:31] ppocr DEBUG: dt_boxes num : 143, elapse : 0.29504823684692383 [2023/04/04 09:19:38] ppocr DEBUG: rec_res num : 143, elapse : 6.71959924697876 [2023/04/04 09:19:39] ppocr DEBUG: dt_boxes num : 184, elapse : 0.2756774425506592 [2023/04/04 09:19:47] ppocr DEBUG: rec_res num : 184, elapse : 7.978609085083008 [2023/04/04 09:19:47] ppocr DEBUG: dt_boxes num : 1, elapse : 0.2678976058959961 [2023/04/04 09:19:47] ppocr DEBUG: rec_res num : 1, elapse : 0.06795477867126465 [2023/04/04 09:19:48] ppocr DEBUG: dt_boxes num : 0, elapse : 0.2822730541229248 [2023/04/04 09:19:48] ppocr DEBUG: rec_res num : 0, elapse : 9.5367431640625e-07 [2023/04/04 09:19:48] ppocr INFO: processing 41/49 page: [2023/04/04 09:19:48] ppocr DEBUG: dt_boxes num : 1, elapse : 0.265427827835083 [2023/04/04 09:19:48] ppocr DEBUG: rec_res num : 1, elapse : 0.06782031059265137 [2023/04/04 09:19:49] ppocr DEBUG: dt_boxes num : 95, elapse : 0.2921788692474365 [2023/04/04 09:19:53] ppocr DEBUG: rec_res num : 95, elapse : 4.503168106079102 [2023/04/04 09:19:54] ppocr DEBUG: dt_boxes num : 95, elapse : 0.2905924320220947 [2023/04/04 09:19:58] ppocr DEBUG: rec_res num : 95, elapse : 4.514339447021484 [2023/04/04 09:19:59] ppocr DEBUG: dt_boxes num : 147, elapse : 0.2212963104248047 [2023/04/04 09:20:05] ppocr DEBUG: rec_res num : 147, elapse : 6.342562675476074 [2023/04/04 09:20:06] ppocr DEBUG: dt_boxes num : 1, elapse : 0.26610708236694336 [2023/04/04 09:20:06] ppocr DEBUG: rec_res num : 1, elapse : 0.06768369674682617 [2023/04/04 09:20:06] ppocr DEBUG: dt_boxes num : 1, elapse : 0.2676105499267578 [2023/04/04 09:20:06] ppocr DEBUG: rec_res num : 1, elapse : 0.04133176803588867 [2023/04/04 09:20:06] ppocr INFO: processing 42/49 page: [2023/04/04 09:20:07] ppocr DEBUG: dt_boxes num : 186, elapse : 0.30245065689086914 [2023/04/04 09:20:15] ppocr DEBUG: rec_res num : 186, elapse : 7.990084171295166 [2023/04/04 09:20:16] ppocr DEBUG: dt_boxes num : 1, elapse : 0.313342809677124 [2023/04/04 09:20:16] ppocr DEBUG: rec_res num : 1, elapse : 0.08367776870727539 [2023/04/04 09:20:16] ppocr DEBUG: dt_boxes num : 0, elapse : 0.2839212417602539 [2023/04/04 09:20:16] ppocr DEBUG: rec_res num : 0, elapse : 1.1920928955078125e-06 [2023/04/04 09:20:17] ppocr INFO: processing 43/49 page: [2023/04/04 09:20:17] ppocr DEBUG: dt_boxes num : 104, elapse : 0.30979490280151367 [2023/04/04 09:20:22] ppocr DEBUG: rec_res num : 104, elapse : 4.8001861572265625 [2023/04/04 09:20:23] ppocr DEBUG: dt_boxes num : 168, elapse : 0.30451369285583496 [2023/04/04 09:20:30] ppocr DEBUG: rec_res num : 168, elapse : 7.2346391677856445 [2023/04/04 09:20:31] ppocr DEBUG: dt_boxes num : 1, elapse : 0.26415205001831055 [2023/04/04 09:20:31] ppocr DEBUG: rec_res num : 1, elapse : 0.07415080070495605 [2023/04/04 09:20:31] ppocr DEBUG: dt_boxes num : 1, elapse : 0.27043581008911133 [2023/04/04 09:20:31] ppocr DEBUG: rec_res num : 1, elapse : 0.0417017936706543 [2023/04/04 09:20:31] ppocr INFO: processing 44/49 page: [2023/04/04 09:20:32] ppocr DEBUG: dt_boxes num : 163, elapse : 0.23629975318908691 [2023/04/04 09:20:39] ppocr DEBUG: rec_res num : 163, elapse : 6.992345571517944 [2023/04/04 09:20:40] ppocr DEBUG: dt_boxes num : 1, elapse : 0.26836705207824707 [2023/04/04 09:20:40] ppocr DEBUG: rec_res num : 1, elapse : 0.06721282005310059 [2023/04/04 09:20:40] ppocr DEBUG: dt_boxes num : 0, elapse : 0.26299452781677246 [2023/04/04 09:20:40] ppocr DEBUG: rec_res num : 0, elapse : 1.1920928955078125e-06 [2023/04/04 09:20:40] ppocr INFO: processing 45/49 page: [2023/04/04 09:20:41] ppocr DEBUG: dt_boxes num : 90, elapse : 0.29357194900512695 [2023/04/04 09:20:46] ppocr DEBUG: rec_res num : 90, elapse : 4.541824817657471 [2023/04/04 09:20:46] ppocr DEBUG: dt_boxes num : 166, elapse : 0.31435370445251465 [2023/04/04 09:20:53] ppocr DEBUG: rec_res num : 166, elapse : 7.036696910858154 [2023/04/04 09:20:54] ppocr DEBUG: dt_boxes num : 1, elapse : 0.2700989246368408 [2023/04/04 09:20:54] ppocr DEBUG: rec_res num : 1, elapse : 0.06601238250732422 [2023/04/04 09:20:54] ppocr DEBUG: dt_boxes num : 1, elapse : 0.26212215423583984 [2023/04/04 09:20:54] ppocr DEBUG: rec_res num : 1, elapse : 0.04145383834838867 [2023/04/04 09:20:54] ppocr INFO: processing 46/49 page: [2023/04/04 09:20:55] ppocr DEBUG: dt_boxes num : 133, elapse : 0.30124497413635254 [2023/04/04 09:21:01] ppocr DEBUG: rec_res num : 133, elapse : 5.827086448669434 [2023/04/04 09:21:02] ppocr DEBUG: dt_boxes num : 138, elapse : 0.27837324142456055 [2023/04/04 09:21:08] ppocr DEBUG: rec_res num : 138, elapse : 5.877498388290405 [2023/04/04 09:21:08] ppocr DEBUG: dt_boxes num : 1, elapse : 0.2787058353424072 [2023/04/04 09:21:08] ppocr DEBUG: rec_res num : 1, elapse : 0.06900405883789062 [2023/04/04 09:21:09] ppocr DEBUG: dt_boxes num : 0, elapse : 0.3103938102722168 [2023/04/04 09:21:09] ppocr DEBUG: rec_res num : 0, elapse : 1.430511474609375e-06 [2023/04/04 09:21:09] ppocr INFO: processing 47/49 page: [2023/04/04 09:21:09] ppocr DEBUG: dt_boxes num : 1, elapse : 0.26359128952026367 [2023/04/04 09:21:10] ppocr DEBUG: rec_res num : 1, elapse : 0.06550049781799316 [2023/04/04 09:21:10] ppocr DEBUG: dt_boxes num : 77, elapse : 0.2777726650238037 [2023/04/04 09:21:14] ppocr DEBUG: rec_res num : 77, elapse : 3.704111337661743 [2023/04/04 09:21:14] ppocr DEBUG: dt_boxes num : 142, elapse : 0.21089434623718262 [2023/04/04 09:21:20] ppocr DEBUG: rec_res num : 142, elapse : 5.994004011154175 [2023/04/04 09:21:21] ppocr DEBUG: dt_boxes num : 1, elapse : 0.25783324241638184 [2023/04/04 09:21:21] ppocr DEBUG: rec_res num : 1, elapse : 0.06790614128112793 [2023/04/04 09:21:21] ppocr DEBUG: dt_boxes num : 1, elapse : 0.2549748420715332 [2023/04/04 09:21:21] ppocr DEBUG: rec_res num : 1, elapse : 0.04005599021911621 [2023/04/04 09:21:29] ppocr INFO: processing 49/49 page: [2023/04/04 09:21:30] ppocr DEBUG: dt_boxes num : 6, elapse : 0.2549574375152588 [2023/04/04 09:21:30] ppocr DEBUG: rec_res num : 6, elapse : 0.5711896419525146 [2023/04/04 09:21:31] ppocr DEBUG: dt_boxes num : 1, elapse : 0.25836920738220215 [2023/04/04 09:21:31] ppocr DEBUG: rec_res num : 1, elapse : 0.04061579704284668 [2023/04/04 09:21:31] ppocr DEBUG: dt_boxes num : 1, elapse : 0.2591073513031006 [2023/04/04 09:21:31] ppocr DEBUG: rec_res num : 1, elapse : 0.06556034088134766 [2023/04/04 09:21:31] ppocr DEBUG: dt_boxes num : 1, elapse : 0.2556314468383789 [2023/04/04 09:21:31] ppocr DEBUG: rec_res num : 1, elapse : 0.04033327102661133 [2023/04/04 09:21:32] ppocr DEBUG: dt_boxes num : 16, elapse : 0.2712080478668213 [2023/04/04 09:21:35] ppocr DEBUG: rec_res num : 16, elapse : 3.111189842224121 [2023/04/04 09:21:35] ppocr DEBUG: dt_boxes num : 6, elapse : 0.2776339054107666 [2023/04/04 09:21:37] ppocr DEBUG: rec_res num : 6, elapse : 1.6403119564056396 [2023/04/04 09:21:40] ppocr ERROR: error in layout recovery image:001, err msg: list index out of range

5

你使用的时CDLA的推理文件吗

0

我调试了一下源码,出现这个错误是pdf中出现目录的时候,有个Table函数出问题。可能它把目录识别为table了,但是目录中的那些小点是数量不定的。可能需要针对目录专门训练一下。 @AIwang666 @liao7877 @MissPenguin @an1018

5

我调试了一下源码,出现这个错误是pdf中出现目录的时候,有个Table函数出问题。可能它把目录识别为table了,但是目录中的那些小点是数量不定的。可能需要针对目录专门训练一下。 @AIwang666 @liao7877 @MissPenguin @an1018

该怎么训练目录?可以设置忽略目录错误来恢复吗?

7

我调试了一下源码,出现这个错误是pdf中出现目录的时候,有个Table函数出问题。可能它把目录识别为table了,但是目录中的那些小点是数量不定的。可能需要针对目录专门训练一下。 @AIwang666 @liao7877 @MissPenguin @an1018

该怎么训练目录?可以设置忽略目录错误来恢复吗?

可以在源码注释掉这个报错,不影响其他部分的版面恢复,只不过目录这几页恢复得不好。

4

我调试了一下源码,出现这个错误是pdf中出现目录的时候,有个Table函数出问题。可能它把目录识别为table了,但是目录中的那些小点是数量不定的。可能需要针对目录专门训练一下。 @AIwang666 @liao7877 @MissPenguin @an1018

该怎么训练目录?可以设置忽略目录错误来恢复吗?

可以在源码注释掉这个报错,不影响其他部分的版面恢复,只不过目录这几页恢复得不好。

是哪一段源码?可以说下吗?

9

我调试了一下源码,出现这个错误是pdf中出现目录的时候,有个Table函数出问题。可能它把目录识别为table了,但是目录中的那些小点是数量不定的。可能需要针对目录专门训练一下。 @AIwang666 @liao7877 @MissPenguin @an1018

该怎么训练目录?可以设置忽略目录错误来恢复吗?

可以在源码注释掉这个报错,不影响其他部分的版面恢复,只不过目录这几页恢复得不好。

是哪一段源码?可以说下吗?

时间久了没用我忘记了,就是通过报错跳到源码那几行,然后把源码改成出错的话跳过不要报错停下来。我在出差,回去如果有空我看看哪几行是怎么弄的。

5

我调试了一下源码,出现这个错误是pdf中出现目录的时候,有个Table函数出问题。可能它把目录识别为table了,但是目录中的那些小点是数量不定的。可能需要针对目录专门训练一下。 @AIwang666 @liao7877 @MissPenguin @an1018

该怎么训练目录?可以设置忽略目录错误来恢复吗?

可以在源码注释掉这个报错,不影响其他部分的版面恢复,只不过目录这几页恢复得不好。

是哪一段源码?可以说下吗?

时间久了没用我忘记了,就是通过报错跳到源码那几行,然后把源码改成出错的话跳过不要报错停下来。我在出差,回去如果有空我看看哪几行是怎么弄的。

好的,多谢,我没用pycharm所以不能debug,跳到报错的地方不方便

2

我也遇到了类似问题

功能: 把pdf转word

环境和版本: win11 python 3.8.17 paddle 2.5.1 paddleocr 2.7.0.0

具体操作: conda create -n PP -c conda-forge python=3.8 conda activate PP pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple pip install "paddleocr>=2.6" -i https://mirror.baidu.com/pypi/simple Invoke-WebRequest -Uri "https://ghproxy.com/https://raw.githubusercontent.com/PaddlePaddle/PaddleOCR/release/2.6/ppstructure/recovery/requirements.txt" -OutFile "requirements.txt" pip install -r requirements.txt -i https://mirror.baidu.com/pypi/simple pip install "PyMuPDF==1.19.0" -i https://mirror.baidu.com/pypi/simple

pdf转word的命令: paddleocr --image_dir=test.pdf --type=structure --recovery=true

报错的pdf 是2011年的扫描件pdf

1

报错信息; a2cc2bd3096aea3242d03170ff37dd7 报错pdf test.pdf

0

下载最新的paddleOcr就不会报错了