看代码似乎默认是不开启prefix_projection,我在我的数据集上微调发现不开启prefix_projection的情况损失一直震荡不收敛,开启prefix_projection能收敛,但训练参数量比例从0.5%升到14%。这种情况正常吗?
见主要描述
Environment- OS:
- Python:
- Transformers:
- PyTorch:
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :