[THUDM/ChatGLM-6B][Feature] 训练1M数据需要多久

2024-06-12 121 views
5

用官方推荐的方法ptuning, 在v100上提示需要快500小时才能搞完,是这样么,还是参数我搞错了

回答

9

这个要看数据和ptuning参数才能判断的。我这v100 40G,max_source_length 1024、max_target_length 512,其他参数不变的清空下,3万多数据需要12小时

7

我这边A100 40G, max_source_length 512,max_target_length 512,max_steps 1000, 50w条数据需要训练24个小时,真要命

9

@ray-008 一直没懂, max_steps 1000 到底是啥意思? max_steps好像是只计算1000条数据? 看代码这个字段可以不填, 不填写会自动根据数据集的条数来计算step, 貌似你这50w条数据需要的时间会更长吧?

2

@ray-008 一直没懂, max_steps 1000 到底是啥意思? max_steps好像是只计算1000条数据? 看代码这个字段可以不填, 不填写会自动根据数据集的条数来计算step, 貌似你这50w条数据需要的时间会更长吧?

共训练 max_steps 步,每步 per_device_train_batch_size * gradient_accumulation_steps 条数据

共训练 max_steps (per_device_train_batch_size gradient_accumulation_steps) 条数据

7

@exaggerated-dream 就是说, 算下来可能数据集还是没有办法都训练一次? 我看好像如果不填写这个参数, 代码里面会自动计算

9

@exaggerated-dream 就是说, 算下来可能数据集还是没有办法都训练一次? 我看好像如果不填写这个参数, 代码里面会自动计算

对于官方提供的数据集来说,并不需要所有数据都训练完就能有不错的效果。

继续训练下去付出的时间、算力等无法得到更佳的提升回报,或者说付出和回报不成正比

都是经验、实验和权衡下的选择。

0

这个要看数据和ptuning参数才能判断的。我这v100 40G,max_source_length 1024、max_target_length 512,其他参数不变的清空下,3万多数据需要12小时

问下哈,你3万数据微调效果怎么样?