[THUDM/ChatGLM-6B]菜鸟选手请教:如何构建自己的数据集

2024-06-17 520 views
1

真的要一条条数据手动生成吗QAQ?还是说有没有一个方法,根据已有的文本数据自动生成一些问答数据集。看官方的广告生成数据集,差不多1.5w条数据,要是自己手动弄,工作量也忒大了吧

回答

9

微调的数据集肯定是质量越高越好的

2

你这个问题跟先有鸡还是先有蛋是一个道理

4

你这个问题跟先有鸡还是先有蛋是一个道理

我知道你的意思,主要是想着要是已经有了(只不过我不知道)好的自动生成的方法,就可以节省大量人工成本了orz

8

要想要好的效果模型数据缺一不可,有时候数据比模型更重要,效果和效率之间做一个平衡,chatglm和chatgpt效果不都还可以吗,你直接把文本输入进去,让它们生成一些对话看看噻,比如请根据以下内容生成一段两人的对话

3

提供的微调数据中 input中的一写#符号代表是什么意思? 这样微调后的数据是否也要这样输入

7

同问,如果我的数据格式是 {"吃饭了吗","你好我是机器人不需要吃饭" } 这种作为训练可以吗。 还有dev遵循test data标准吗还是有什么要求。

0

同问,求大佬赐教

3

请问这个项目中怎样训练自己的数据集

1

可以试试 doc2query/msmarco-chinese-mt5-base-v1, 根据doc生成问题

3

可参考#330