[THUDM/ChatGLM-6B]我发现长文本生成效果不容易调出来，特别容易出现重复例如“我吃饭了吗吗吗吗吗吗吗吗吗”

我发现长文本生成效果不容易调出来，特别容易出现重复例如“我吃饭了吗吗吗吗吗吗吗吗吗”，网上说是退化问题，即随着生成文本长度的增加其质量会逐渐降低，容易出现多种层次（字、短语、句子级）的重复生成。有没有大神给一些有效的经验。

求大神指点

训练长文本生成。

Environment

- OS:ubuntu-18
- Python:3.8.13
- Transformers:4.28
- PyTorch:2.2
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :11.7

liuanping

你用的p-tuning吗？还是lora？

StarRanger

你用的p-tuning吗？还是lora？用的是lora

liuanping

我也是这个问题减少文本长度有用么？

Crazycatter

我在alpaca-lora遇到了同样的问题，猜测生成长文本的难度确实较大，而且lora在微调方法中也算是属于效果不太好的那一类了

xv994

我用p-tuning也是出现这种求大神解答

Leawnn

max_target_length别指定太长，缩短到64，训练次数适当增加。部署时，tockenizer就用原本的Thudm/ChatGLM-6B，model用ptuning的model，你这情况我在训练llama时遇到过。chatglm没遇见。

发自我的iPhone

在 2023年4月20日，10:22，Leawnn @.***> 写道：

我用p-tuning也是出现这种求大神解答

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.

StarRanger

训练的时候max_target_length设置的300，max_steps设置5000，还是不太行

Leawnn

max_target_length为128时，生成中文文本字数大概为200字左右，你这个max_target_length=300，我猜测如果基底模型生成的内容不够长的话，就会不停重复

xv994

同样遇到了，有时候会疯狂排比句

SnakeHacker

用全量微调感觉没有这种问题了

liuanping

@liuanping 大佬解决了吗，我也出现了同样的问题

Lufffya

感觉全量微调就好了

liuanping

@Lufffya 感觉全量微调就好了还有一些办法说是加重复惩罚项

liuanping

@Lufffya 感觉全量微调就好了还有一些办法说是加重复惩罚项

哦哦好吧，那估计不太行，我这里只有一张4090，跑不起来，谢谢

Lufffya

@Lufffya 可能chatuan更友好因为他是10亿参数模型效果也还行。

liuanping

@Lufffya 感觉全量微调就好了还有一些办法说是加重复惩罚项

请问你有全量微调嘛

Chevalier1024

@liuanping 大佬解决了吗，我也出现了同样的问题有没有怎么微调相关的说明，谢谢

shuanglong520

@shuanglong520 我全量微调的时候发现没了 lora不行可能

liuanping

[THUDM/ChatGLM-6B]我发现长文本生成效果不容易调出来，特别容易出现重复 例如“我吃饭了吗吗吗吗吗吗吗吗吗”

回答

[THUDM/ChatGLM-6B]我发现长文本生成效果不容易调出来，特别容易出现重复例如“我吃饭了吗吗吗吗吗吗吗吗吗”