[THUDM/ChatGLM-6B]菜鸟选手请教:如何构建自己的数据集

2024-06-17 452 views
6

真的要一条条数据手动生成吗QAQ?还是说有没有一个方法,根据已有的文本数据自动生成一些问答数据集。看官方的广告生成数据集,差不多1.5w条数据,要是自己手动弄,工作量也忒大了吧

回答

0

微调的数据集肯定是质量越高越好的

4

你这个问题跟先有鸡还是先有蛋是一个道理

0

你这个问题跟先有鸡还是先有蛋是一个道理

我知道你的意思,主要是想着要是已经有了(只不过我不知道)好的自动生成的方法,就可以节省大量人工成本了orz

4

要想要好的效果模型数据缺一不可,有时候数据比模型更重要,效果和效率之间做一个平衡,chatglm和chatgpt效果不都还可以吗,你直接把文本输入进去,让它们生成一些对话看看噻,比如请根据以下内容生成一段两人的对话

0

提供的微调数据中 input中的一写#符号代表是什么意思? 这样微调后的数据是否也要这样输入

2

同问,如果我的数据格式是 {"吃饭了吗","你好我是机器人不需要吃饭" } 这种作为训练可以吗。 还有dev遵循test data标准吗还是有什么要求。

9

同问,求大佬赐教

7

请问这个项目中怎样训练自己的数据集

5

可以试试 doc2query/msmarco-chinese-mt5-base-v1, 根据doc生成问题

3

可参考#330