[babysor/MockingBird]一些关于生成语音时一直会有电流音的猜想

2024-07-16 728 views
4

现在大家不管怎么优化提纯原始的人物语音,就算训练出来后loss<2.0,生成的语音也带有电流音。 会不会还是训练器本身的问题:

首先就是,当你用MockingBird GUI打开本地音频,它播放时就有几率是带有电流音;

另一个就是,在你生成的saved_models的wavs文件夹里,存放的都是训练时生成的音频,他们全都带有严重电流音,而且声音质量并没有随着step的增加而有任何改善。

希望大神能够指导一下我等小白,怎么能生成无电流音的声音

回答

4

同问,不知道怎么生成无电流音的

3

你用的vocoder是哪个?如果频谱ok的话,大概率是vocoder问题

1

为什么考虑是vocoder问题呢?

6

vocoder没训练好的话,电音就会很突出

1

啊,我一直就是用python pre.py D:\MockingBird-main -d aidatatang_200zh -n 7 python synthesizer_train.py test D:\MockingBird-main\SV2TTS\synthesizer 这俩命令呀,没有我自己搞的vocoder

5

不要用hifigan这个vocoder,电音很严重

8

我一直用的是pretrained呀,训练前准备的语音数据绝对时纯净的语音,但训练出来,就会有电音

5

我一直用的是pretrained呀,训练前准备的语音数据绝对时纯净的语音,但训练出来,就会有电音

4

pretrained的效果本来就一般般。。要再训练

5

在训了,在训了,但是又发现俩问题: ① 想训练wavernn声码器,执行python vocoder_train.py 命令会报错, 提示vocoder_train.py: error: the following arguments are required: vocoder_type ② 没办法,那我就去训练hifigan声码器, 执行python vocoder_train.py hifigan 没有报错。 但训练时控制台一直打印这种 Epoch: 187 Time taken for epoch 187 is 3 sec Epoch: 188 Time taken for epoch 188 is 3 sec ... Epoch: 3100 Time taken for epoch 3100 is 3 sec 然后就没有然后了,\vocoder\saved_models\xxx是有的,但里面只有俩日志,没有训练好的pt文件