[THUDM/ChatGLM-6B][BUG/Help] <用自带广告数据P-tuning后,模型原有能力消失>

2024-05-21 828 views
6

按照说明p-tuning自带的广告语数据后,加载训练后模型,原有能力基本消失,所有回答都和广告语相关,答非所问。如何保留原有能力的情况下p-tuning,感谢!

如以上问题所述

Environment
- OS: wsl Ubuntu
- Python: 3.10
- Transformers:4.27.1
- PyTorch: 2.0.0
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :

回答

8

这个问题一般都是代码造成的。。 你可以先更新最新的模型文件 ,再微调看看。如果还是这样,就是你的代码有问题了

9

没有修改任何代码, 唯一的改动是把--model_name_or_path 从 chatglm-6b-model 改为chatglm-6b-int4-model, 否则启动training后,会被Killed

7

我也是这样,所有问题都变成和广告相关.

5

使用LoRA微调方法不会忘记老知识,可以去 https://github.com/THUDM/ChatGLM-6B/blob/main/PROJECT.md 这里看,有很多基于LoRA微调的项目

意思是使用ptuning微调后会忘记以前的知识?感觉不太合理,之前的模型经过1T的数据量训练,Adgen里数据量也就10万条。

4

+1,我也遇到这样的问题,步骤就是按照官方给的 很离谱 求解

3

Duplicate of #403