[THUDM/ChatGLM-6B][BUG/Help] 请问AdvertiseGen目录下的dev.json和train.json有什么区别,训练自己的问题库时,这两个json如何写

2024-05-10 385 views
9

Traceback (most recent call last): File "C:\ChatGLM-6B\ptuning\main.py", line 430, in main() File "C:\ChatGLM-6B\ptuning\main.py", line 99, in main raw_datasets = load_dataset( File "C:\Python\Python\lib\site-packages\datasets\load.py", line 1797, in load_dataset builder_instance.download_and_prepare( File "C:\Python\Python\lib\site-packages\datasets\builder.py", line 890, in download_and_prepare self._download_and_prepare( File "C:\Python\Python\lib\site-packages\datasets\builder.py", line 985, in _download_and_prepare self._prepare_split(split_generator, **prepare_split_kwargs) File "C:\Python\Python\lib\site-packages\datasets\builder.py", line 1746, in _prepare_split for job_id, done, content in self._prepare_split_single( File "C:\Python\Python\lib\site-packages\datasets\builder.py", line 1891, in _prepare_split_single raise DatasetGenerationError("An error occurred while generating the dataset") from e datasets.builder.DatasetGenerationError: An error occurred while generating the dataset

训练自己的问题库时, 这两个json文件分别写什么内容呢 我看了下demo文件中的这俩文件,除了一个数量量大点,一个数据量小点,其它没什么区别 想去训练自己的库,把问题库写好了json格式,取名train.json,再复制了一份,取名dev.json,能正常跑下去。 不知有何区别

Environment
- OS:
- Python:
- Transformers:
- PyTorch:
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :

回答

8

同样具有这个疑问

6

好象是train.json是训练集数据,dev.sjon是评估模型在验证集上的效果

3

train是训练集,dev是验证集,不要重复数据!chatgpt可以帮忙写数据处理的脚本,很容易的。我用的提示词是:请你帮我写个python程序来帮我处理数据集,我的原始文档是文件夹里一个个独立的txt文件,每个文件内容是第一行的标题和换行后的文本内容。我需要你把我的原始文件夹里的txt文档分到两个文件夹中,一个是train,一个是dev,train中存放原始文件夹中80%数量的txt,剩余的存入dev中。然后分别把这两个文件夹的这些txt变成一个json文档(train.json和dev.json),原来的txt文件的内容对应json的一个元素,标题变成"content",剩余内容变成"summary",输出的json内容不需要对所有单独元素再用一个大括号包括,只需要每个元素有大括号就行,案例如下: {"content": "类型#上衣材质#牛仔布颜色#白色风格#简约图案#刺绣衣样式#外套衣款式#破洞", "summary": "简约而不简单的牛仔外套,白色的衣身十分百搭。衣身多处有做旧破洞设计,打破单调乏味,增加一丝造型看点。衣身后背处有趣味刺绣装饰,丰富层次感,彰显别样时尚。"} {"content": "类型#裙材质#针织颜色#纯色风格#复古风格#文艺风格#简约图案#格子图案#纯色图案#复古裙型#背带裙裙长#连衣裙*裙领型#半高领", "summary": "这款BRAND针织两件套连衣裙,简约的纯色半高领针织上衣,修饰着颈部线,尽显优雅气质。同时搭配叠穿起一条背带式的复古格纹裙,整体散发着一股怀旧的时髦魅力,很是文艺范。"}

4

@TaoTao386 请问您的train.json有多少行数据?

7

@RuiShaoo 4000多行吧,我现在有其他问题,就是输出很短,戛然而止

3

方便留个联系方式交流一下 @TaoTao386

1

@RuiShaoo vx:wZ2022oc

3

@RuiShaoo 4000多行吧,我现在有其他问题,就是输出很短,戛然而止

你设置的max_token过短

2

请问怎么把自己的问题库生成json格式,问题库中都有哪些内容?