- 系统环境/System Environment:Ubuntu20.04
- 版本号/Version:Paddle: PaddleOCR: 问题相关组件/Related components:ppstructure
- 运行指令/Command Code:
python3 tools/train.py -c configs/table/SLANet.yml
(如readme教程所给) - 完整报错/Complete Error Message:
[2022/12/05 17:32:53] ppocr ERROR: When parsing line {"imgid": 975, "html": {"cells": [{"tokens": ["<b>", "m", "i", "R", "N", "A", "</b>"], "bbox": [1, 4, 26, 13]}, {"tokens": ["<b>", "H", "C", "*", "</b>"], "bbox": [57, 4, 72, 13]}, {"tokens": ["<b>", "R", "C", "C", "*", "</b>"], "bbox": [122, 4, 142, 13]}, {"tokens": ["<b>", "p", "-", "v", "a", "l", "u", "e", "</b>"], "bbox": [188, 4, 216, 13]}, {"tokens": ["<b>", "C", "a", "n", "c", "e", "r", " ", "a", "s", "s", "o", "c", "i", "a", "t", "i", "o", "n", "</b>"], "bbox": [244, 4, 311, 13]}, {"tokens": ["<b>", "E", "x", "p", "e", "r", "i", "m", "e", "n", "t", "a", "l", "y", " ", "v", "a", "l", "i", "d", "a", "t", "e", "d", " ", "t", "a", "r", "g", "e", "t", "</b>"], "bbox": [351, 4, 460, 13]}, {"tokens": ["m", "i", "R", "-", "3", "7", "8"], "bbox": [1, 17, 28, 27]}, {"tokens": ["0", ".", "0", "0", "4", "0", ".", "0", "0", "2", "-", "0", ".", "0", "0", "6"], "bbox": [57, 17, 94, 36]}, {"tokens": ["0", ".", "0", "0", "8", "0", ".", "0", "0", "4", "-", "0", ".", "0", "3", "7"], "bbox": [122, 17, 160, 36]}, {"tokens": ["0", ".", "0", "0", "0", "3"], "bbox": [188, 17, 211, 27]}, {"tokens": ["c", "o", "l", "o", "r", "e", "c", "t", "a", "l", "c", "a", "r", "c", "i", "n", "o", "m", "a", " ", "[", "1", "6", ",", "1", "7", "]", ",", " ", "o", "r", "a", "l", "s", "q", "u", "a", "m", "o", "u", "s", " ", "c", "e", "l", "l", "c", "a", "r", "c", "i", "n", "o", "m", "a", " ", "[", "1", "8", "]", ",", "l", "a", "r", "y", "n", "g", "e", "a", "l", "c", "a", "r", "c", "i", "n", "o", "m", "a", " ", "[", "1", "9", "]"], "bbox": [244, 17, 318, 71]}, {"tokens": ["S", "U", "F", "U", ",", " ", "T", "U", "S", "C", "2", ",", "T", "O", "B", "2", ",", " ", "C", "Y", "P", "2", "E", "1"], "bbox": [351, 17, 397, 36]}, {"tokens": ["m", "i", "R", "-", "4", "5", "1"], "bbox": [1, 74, 28, 83]}, {"tokens": ["2", ".", "0", "6", "7", "1", ".", "2", "5", "0", "-", "3", ".", "4", "8", "0"], "bbox": [57, 74, 94, 92]}, {"tokens": ["0", ".", "8", "0", "2", "0", ".", "0", "5", "5", "-", "1", ".", "0", "9", "1"], "bbox": [122, 74, 160, 92]}, {"tokens": ["0", ".", "0", "0", "0", "1"], "bbox": [188, 74, 211, 83]}, {"tokens": ["r", "e", "n", "a", "l", " ", "c", "e", "l", "l", " ", "c", "a", "r", "c", "i", "n", "o", "m", "a", " ", "[", "1", "]", ",", "c", "o", "l", "o", "r", "e", "c", "t", "a", "l", "c", "a", "r", "c", "i", "n", "o", "m", "a", " ", "[", "2", "0", "]", ",", "g", "a", "s", "t", "r", "i", "c", " ", "c", "a", "n", "c", "e", "r", " ", "[", "2", "0", "]"], "bbox": [244, 74, 322, 110]}, {"tokens": ["M", "M", "P", "2", ",", " ", "M", "M", "P", "9", ",", "B", "C", "L", "2"], "bbox": [351, 74, 398, 92]}, {"tokens": ["m", "i", "R", "-", "1", "5", "0"], "bbox": [1, 113, 28, 122]}, {"tokens": ["0", ".", "0", "1", "1", "0", ".", "0", "0", "9", "-", "0", ".", "0", "1", "6"], "bbox": [57, 113, 94, 131]}, {"tokens": ["0", ".", "0", "0", "8", "0", ".", "0", "0", "5", "-", "0", ".", "0", "2", "0"], "bbox": [122, 113, 160, 131]}, {"tokens": ["0", ".", "2", "2", "2", "2"], "bbox": [188, 113, 211, 122]}, {"tokens": ["g", "a", "s", "t", "r", "i", "c", " ", "c", "a", "n", "c", "e", "r", " ", "[", "2", "1", "]", ",", "c", "h", "r", "o", "n", "i", "c", " ", "m", "y", "e", "l", "o", "i", "d", "l", "e", "u", "k", "e", "m", "i", "a", " ", "[", "2", "2", "]", ",", "c", "o", "l", "o", "r", "e", "c", "t", "a", "l", "c", "a", "r", "c", "i", "n", "o", "m", "a", " ", "[", "2", "3", "]"], "bbox": [244, 113, 306, 158]}, {"tokens": ["H", "T", "T", ",", " ", "M", "Y", "B", ",", "E", "G", "F", "R", "2"], "bbox": [351, 113, 384, 131]}], "structure": {"tokens": ["<thead>", "<tr>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "</tr>", "</thead>", "<tbody>", "<tr>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "</tr>", "<tr>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "</tr>", "<tr>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "</tr>", "</tbody>"]}}, "split": "train", "filename": "PMC3340316_005_00.png"}, error happened with msg: Traceback (most recent call last): File "/root/autodl-tmp/lxc/projects/PaddleOCR/ppocr/data/pubtab_dataset.py", line 107, in __getitem__ raise Exception("{} does not exist!".format(img_path)) Exception: /home/XXX/dataset/pubtabnet/val/PMC3340316_005_00.png does not exist!
上面给出部分示例, 目前官网上能下载到的数据集压缩包里面只有一个标签文件
一个标签文件里面有train、val、test的标签
因此在configs/table/SLANet.yml
里面,train和val的label_lists我均只能给
label_file_list: [/home/XXX/dataset/pubtabnet/PubTabNet_2.0.0.jsonl]
然后就会出现大量标签找不到图片的error,在标签文件里面"split": "train"
,而在验证时它仍会从val/里面寻找