预处理报错,大佬帮忙看一下啥情况
Q
[babysor/MockingBird]作者大佬,预处理报错
0
A
回答
8
没解压成功吧。
5
字符超过限制了,不要有括号 中文字符 最好是 xx1.wav 或 xx2.wav 这样子的
7
请问上图的no wordS是什么?我在预处理的时候没有出现这些no wordS的信息,直接解析出数据集的时长、文本长度和音频时间轴的信息之后就显示
Embedding: 0%
Loaded encoder 'pretained.pt' trained to step 1594501
Embedding: 100%
这种属于正常现象么?
4
上图的 no wordS按照我的理解是因为文本和语音不匹配,如有英文字符却识别中文。你没有出现则说明你的数据集筛选的不错,但是你的这种现象好像是训练的时候会出现的步骤吧?
4
其实我比较疑惑,我是在执行python pre.py <datasets_root> -d {dataset} -n {number}
筛选我处理后的数据集,就会出现上图的信息(按照不匹配的说法,那么数据集应该没有大的问题)。然后再按照python synthesizer_train.py mandarin <datasets_root>/SV2TTS/synthesizer
训练合成器,中止并用其他网友分享的模型替换继续训练。但是从75K到136K的时候,训练出来的loss值比较大(0.3-0.48波动),还是会有电音
6
按照你的loss波动幅度大 你可以通过调整学习率来解决,或者增大你的batch size(需要足够的显存)和增加你的数据集。可以从synthesizer/hparams.py中修改参数。
1
好的谢谢,另外这个学习率默认都是10的负多少多少次方。如果要减少波动幅度,是要把学习率往接近于0的方向调整么?
7
总之越小的学习率,梯度的下降会越慢,波动也会更小。