8
Current Behavior
您好,我这边在尝试基于 ChatGLM-6B在领域数据上先做自监督增量预训练,然后再做指示微调。有几个问题想请教下您,望赐教: 1.您认为此方案可行性如何,基于ChatGLM-6B再做自监督预训练是否会严重损害之前获得的能力。 2.目前我采用的方案是完全基于 ChatGLM-6B代码做自监督预训练,仅能实现根据上文预测下文和问答对指示学习的任务,您认为这么做可行性如何呢。 3.预训练 GLM-6B和预训练GLM-130B所取的学习率、优化器参数等超参差别大吗,是否能开放相关资料学习呢。 感谢!
Steps To Reproduce不需要
Environment- OS:
- Python:
- Transformers:
- PyTorch:
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :