[THUDM/ChatGLM-6B][Feature] 训练1M数据需要多久

用官方推荐的方法ptuning, 在v100上提示需要快500小时才能搞完，是这样么，还是参数我搞错了

WanJuWuGo

这个要看数据和ptuning参数才能判断的。我这v100 40G，max_source_length 1024、max_target_length 512，其他参数不变的清空下，3万多数据需要12小时

danger-dream

我这边A100 40G， max_source_length 512，max_target_length 512，max_steps 1000, 50w条数据需要训练24个小时，真要命

ray-008

@ray-008 一直没懂, max_steps 1000 到底是啥意思? max_steps好像是只计算1000条数据? 看代码这个字段可以不填, 不填写会自动根据数据集的条数来计算step, 貌似你这50w条数据需要的时间会更长吧?

ruanshudong

@ray-008 一直没懂, max_steps 1000 到底是啥意思? max_steps好像是只计算1000条数据? 看代码这个字段可以不填, 不填写会自动根据数据集的条数来计算step, 貌似你这50w条数据需要的时间会更长吧?

共训练 max_steps 步，每步 per_device_train_batch_size * gradient_accumulation_steps 条数据

共训练 max_steps (per_device_train_batch_size gradient_accumulation_steps) 条数据

danger-dream

@exaggerated-dream 就是说, 算下来可能数据集还是没有办法都训练一次? 我看好像如果不填写这个参数, 代码里面会自动计算

ruanshudong

@exaggerated-dream 就是说, 算下来可能数据集还是没有办法都训练一次? 我看好像如果不填写这个参数, 代码里面会自动计算

对于官方提供的数据集来说，并不需要所有数据都训练完就能有不错的效果。

继续训练下去付出的时间、算力等无法得到更佳的提升回报，或者说付出和回报不成正比

都是经验、实验和权衡下的选择。

danger-dream

这个要看数据和ptuning参数才能判断的。我这v100 40G，max_source_length 1024、max_target_length 512，其他参数不变的清空下，3万多数据需要12小时

问下哈，你3万数据微调效果怎么样？

sun1092469590

回答