[babysor/MockingBird]作者大佬，预处理报错

2

没解压成功吧。

babysor

4

字符超过限制了，不要有括号中文字符最好是 xx1.wav 或 xx2.wav 这样子的

Chopin68

5

请问上图的no wordS是什么？我在预处理的时候没有出现这些no wordS的信息，直接解析出数据集的时长、文本长度和音频时间轴的信息之后就显示

Embedding： 0%
Loaded encoder 'pretained.pt' trained to step 1594501
Embedding: 100%

这种属于正常现象么？

QiFuChina

9

上图的 no wordS按照我的理解是因为文本和语音不匹配，如有英文字符却识别中文。你没有出现则说明你的数据集筛选的不错，但是你的这种现象好像是训练的时候会出现的步骤吧？

Chopin68

4

其实我比较疑惑，我是在执行python pre.py <datasets_root> -d {dataset} -n {number} 筛选我处理后的数据集，就会出现上图的信息(按照不匹配的说法，那么数据集应该没有大的问题)。然后再按照python synthesizer_train.py mandarin <datasets_root>/SV2TTS/synthesizer 训练合成器，中止并用其他网友分享的模型替换继续训练。但是从75K到136K的时候，训练出来的loss值比较大（0.3-0.48波动），还是会有电音

QiFuChina

4

按照你的loss波动幅度大你可以通过调整学习率来解决，或者增大你的batch size（需要足够的显存）和增加你的数据集。可以从synthesizer/hparams.py中修改参数。

Chopin68

2

好的谢谢，另外这个学习率默认都是10的负多少多少次方。如果要减少波动幅度，是要把学习率往接近于0的方向调整么？

QiFuChina

5

总之越小的学习率，梯度的下降会越慢，波动也会更小。

Chopin68

[babysor/MockingBird]作者大佬，预处理报错

回答