[PaddlePaddle/PaddleOCR]训练DBNet，使用det_mv3_db.yml GPU利用率波动

请提供下述完整信息以便快速定位问题/Please provide the following information to quickly locate the problem

系统环境/System Environment：ubuntu 18
版本号/Version：Paddle： PaddleOCR：问题相关组件/Related components：paddle 2.4.1
运行指令/Command Code：python3 -m paddle.distributed.launch --log_dir=./log/ --gpus '2,5,6,7' tools/train.py -c configs/det/det_mv3_db.yml
完整报错/Complete Error Message：

我们提供了AceIssueSolver来帮助你解答问题，你是否想要它来解答(请填写yes/no)?/We provide AceIssueSolver to solve issues, do you want it? (Please write yes/no):

请尽量不要包含图片在问题中/Please try to not include the image in the issue.

idontkonwher

如图中的profile所示，每隔几个step就会出现了一个明显空隙

idontkonwher

部分定位到原因了，关闭blanceloss后正常了，感觉需要看一下那个blanceloss的实现是否真的需要做排序，另外这个排序在出现空隙的时侯是否真的正确运行在gpu上，感觉像是dispatch了一个cpu算子...(但是为什么前面几个setp是正常的)。

idontkonwher

新的问题，a100*8 运行会出现一个很长的dataloader，增大num_worker没有缓解 @tink2123 Helpppppppp!

idontkonwher

补充：前面一个空隙在每卡batchsize>=8的时候会出现，batchsize=4的时候就消失了，但是这时候GPU利用率上不去

idontkonwher

尝试了将数据全部提前预处理并存储到列表中，但并没有缓解这个问题。

idontkonwher

已解决，dataloader在每个epoch前会重新初始化，绕过初始化后正常。

idontkonwher

已解决，dataloader在每个epoch前会重新初始化，绕过初始化后正常。

你说的绕过是指这里吗：https://github.com/PaddlePaddle/Paddle/blob/develop/python/paddle/io/reader.py#L511

将persistent_workers设置为true?

caizhi-mt

部分定位到原因了，关闭blanceloss后正常了，感觉需要看一下那个blanceloss的实现是否真的需要做排序，另外这个排序在出现空隙的时侯是否真的正确运行在gpu上，感觉像是dispatch了一个cpu算子...(但是为什么前面几个setp是正常的)。

balance loss设置为false后能满足精度要求吗？

caizhi-mt

已解决，dataloader在每个epoch前会重新初始化，绕过初始化后正常。

你说的绕过是指这里吗：https://github.com/PaddlePaddle/Paddle/blob/develop/python/paddle/io/reader.py#L511

将persistent_workers设置为true? 参考这里 https://discuss.pytorch.org/t/data-loader-first-batch-from-each-epoch-is-slow/92844/4?u=xiaodongww

idontkonwher

部分定位到原因了，关闭blanceloss后正常了，感觉需要看一下那个blanceloss的实现是否真的需要做排序，另外这个排序在出现空隙的时侯是否真的正确运行在gpu上，感觉像是dispatch了一个cpu算子...(但是为什么前面几个setp是正常的)。

balance loss设置为false后能满足精度要求吗？

可以收敛到hmean>70，我看新的配置貌似也没有加入balanceloss

idontkonwher

已解决，dataloader在每个epoch前会重新初始化，绕过初始化后正常。

你说的绕过是指这里吗：https://github.com/PaddlePaddle/Paddle/blob/develop/python/paddle/io/reader.py#L511 将persistent_workers设置为true? 参考这里 https://discuss.pytorch.org/t/data-loader-first-batch-from-each-epoch-is-slow/92844/4?u=xiaodongww

好的，感谢你的回复，我看一下

caizhi-mt

部分定位到原因了，关闭blanceloss后正常了，感觉需要看一下那个blanceloss的实现是否真的需要做排序，另外这个排序在出现空隙的时侯是否真的正确运行在gpu上，感觉像是dispatch了一个cpu算子...(但是为什么前面几个setp是正常的)。

balance loss设置为false后能满足精度要求吗？

可以收敛到hmean>70，我看新的配置貌似也没有加入balanceloss

哦哦，好的

caizhi-mt

再请教一下，你这边

单卡DBNet模型性能波动大吗？
多卡线性比如何？

我这边出现单卡波动大，多卡线性比低的问题，https://github.com/PaddlePaddle/Paddle/issues/58713

caizhi-mt

性能吗？单卡/小batch貌似没有很大波动，因为一个epoch的时间还是相对比较长的，所以dataloder的准备时间相对并不是很长。加速比没仔细对比过，但应该没什么大问题。

idontkonwher

性能吗？单卡/小batch貌似没有很大波动，因为一个epoch的时间还是相对比较长的，所以dataloder的准备时间相对并不是很长。加速比没仔细对比过，但应该没什么大问题。

我这边测试v100,batch_size=32，单卡波动较大，你这边测试单卡小batch,小batch是指多少呢？
我测试v100,8卡，线性加速比只有3左右，不知道你这边8卡到多少？或者4卡能到多少？

caizhi-mt

[PaddlePaddle/PaddleOCR]训练DBNet，使用det_mv3_db.yml GPU利用率波动

回答