[THUDM/ChatGLM-6B][BUG/Help] 在对话时文本长度被限制了,对话不完整

2024-05-13 896 views
2

b66b75ced316a5ccd21950e38e2997f 对话不完整,有长度限制,回答戛然而止

按着ptuning的readme走的,在启动了web——demo之后出现的

Environment
- OS:ubuntu16
- Python:3.9
- Transformers:4.27.1
- PyTorch:2.0.1
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :

回答

3

这个问题有解决吗?我也遇到了哈,是训练的时候调节PRE_SEQ_LEN会有用吗?

2

没解决,不知道是哪里的问题,但是重启一下这个服务就没这种问题了

0

mark,我也出现了,也许是PRE_SEQ_LEN的问题?

8
PRE_SEQ_LEN=128
LR=2e-2

CUDA_VISIBLE_DEVICES=0 python3 main.py \
    --do_train \
    --train_file /data/data/mydata/train.json \
    --validation_file /data/data/mydata/eval.json \
    --prompt_column content \
    --response_column summary \
    --overwrite_cache \
    --model_name_or_path THUDM/chatglm-6b \
    --output_dir output/qa-chatglm-6b-pt-$PRE_SEQ_LEN-$LR \
    --overwrite_output_dir \
    --max_source_length 64 \
    --max_target_length 256 \
    --per_device_train_batch_size 1 \
    --per_device_eval_batch_size 1 \
    --gradient_accumulation_steps 16 \
    --predict_with_generate \
    --max_steps 400 \
    --logging_steps 10 \
    --save_steps 200 \
    --learning_rate $LR \
    --pre_seq_len $PRE_SEQ_LEN
    #--quantization_bit 4

这里的max_targtet_len,我从64修改为256之后,回答被截断在较短长度的情况就消除了。

3

有道理,我理解了一下,max_source_length-----> promot字符长度, max_target_length-------> response字符长度。所以还是根据需要增加,但是增加了之后对于算力要求会提高不少。。。。。另外再补充问一下,这个训练真的慢,各位有什么好的方法吗?没看到写支持多GPU并行训练的,有点太慢了(训练和回答)

7

感觉不是吧,你那个参数我刚开始就是256,还是那么短就断了。。。

2

@qihangf 大佬你解决了,怎么关闭 issue 了,如果解决了的话,能问一下是怎么解决的吗,我现在也遇到同样的问题

2

反正我就都调大点呗,无非就是多跑会,确实就没出现了