[THUDM/ChatGLM-6B]关于基于 ChatGLM-6B做增量预训练

2024-05-10 595 views
2
Current Behavior

您好,我这边在尝试基于 ChatGLM-6B在领域数据上先做自监督增量预训练,然后再做指示微调。有几个问题想请教下您,望赐教: 1.您认为此方案可行性如何,基于ChatGLM-6B再做自监督预训练是否会严重损害之前获得的能力。 2.目前我采用的方案是完全基于 ChatGLM-6B代码做自监督预训练,仅能实现根据上文预测下文和问答对指示学习的任务,您认为这么做可行性如何呢。 3.预训练 GLM-6B和预训练GLM-130B所取的学习率、优化器参数等超参差别大吗,是否能开放相关资料学习呢。 感谢!

Steps To Reproduce

不需要

Environment
- OS:
- Python:
- Transformers:
- PyTorch:
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :

回答

8

同问,用自己的语料库做自监督预训练会容易有灾难性遗忘的问题吗?

5

同问,用自己的语料库做自监督预训练会容易有灾难性遗忘的问题吗?

求教程,怎么用chatglm-6B训练自己的语料库,我想训练下自己找的医疗的语料库

1

遗忘,多半是你的优化器和学习率的问题

2

能否进行增量训练有结论了没

5

请问有教程可以分享吗?

7

请问怎么做增量预训练呢?

3

我最近也想做这方面的东西,大佬们有什么方法吗

5

https://github.com/shibing624/MedicalGPT 参考这个项目,预训练,指令微调,rm模型训练,ppo都有现成的。

请问做增量预训练,输入文本最大长度是2048吗?超过这个长度怎么办?