用官方推荐的方法ptuning, 在v100上提示需要快500小时才能搞完,是这样么,还是参数我搞错了
[THUDM/ChatGLM-6B][Feature] 训练1M数据需要多久
回答
这个要看数据和ptuning参数才能判断的。我这v100 40G,max_source_length 1024、max_target_length 512,其他参数不变的清空下,3万多数据需要12小时
我这边A100 40G, max_source_length 512,max_target_length 512,max_steps 1000, 50w条数据需要训练24个小时,真要命
@ray-008 一直没懂, max_steps 1000 到底是啥意思? max_steps好像是只计算1000条数据? 看代码这个字段可以不填, 不填写会自动根据数据集的条数来计算step, 貌似你这50w条数据需要的时间会更长吧?
@ray-008 一直没懂, max_steps 1000 到底是啥意思? max_steps好像是只计算1000条数据? 看代码这个字段可以不填, 不填写会自动根据数据集的条数来计算step, 貌似你这50w条数据需要的时间会更长吧?
共训练 max_steps 步,每步 per_device_train_batch_size * gradient_accumulation_steps 条数据
共训练 max_steps (per_device_train_batch_size gradient_accumulation_steps) 条数据
@exaggerated-dream 就是说, 算下来可能数据集还是没有办法都训练一次? 我看好像如果不填写这个参数, 代码里面会自动计算
@exaggerated-dream 就是说, 算下来可能数据集还是没有办法都训练一次? 我看好像如果不填写这个参数, 代码里面会自动计算
对于官方提供的数据集来说,并不需要所有数据都训练完就能有不错的效果。
继续训练下去付出的时间、算力等无法得到更佳的提升回报,或者说付出和回报不成正比
都是经验、实验和权衡下的选择。
这个要看数据和ptuning参数才能判断的。我这v100 40G,max_source_length 1024、max_target_length 512,其他参数不变的清空下,3万多数据需要12小时
问下哈,你3万数据微调效果怎么样?