[babysor/MockingBird]一些关于生成语音时一直会有电流音的猜想

2024-07-16 83 views
5

现在大家不管怎么优化提纯原始的人物语音,就算训练出来后loss<2.0,生成的语音也带有电流音。 会不会还是训练器本身的问题:

首先就是,当你用MockingBird GUI打开本地音频,它播放时就有几率是带有电流音;

另一个就是,在你生成的saved_models的wavs文件夹里,存放的都是训练时生成的音频,他们全都带有严重电流音,而且声音质量并没有随着step的增加而有任何改善。

希望大神能够指导一下我等小白,怎么能生成无电流音的声音

回答

8

同问,不知道怎么生成无电流音的

1

你用的vocoder是哪个?如果频谱ok的话,大概率是vocoder问题

0

为什么考虑是vocoder问题呢?

2

vocoder没训练好的话,电音就会很突出

0

啊,我一直就是用python pre.py D:\MockingBird-main -d aidatatang_200zh -n 7 python synthesizer_train.py test D:\MockingBird-main\SV2TTS\synthesizer 这俩命令呀,没有我自己搞的vocoder

8

不要用hifigan这个vocoder,电音很严重

5

我一直用的是pretrained呀,训练前准备的语音数据绝对时纯净的语音,但训练出来,就会有电音

3

我一直用的是pretrained呀,训练前准备的语音数据绝对时纯净的语音,但训练出来,就会有电音

8

pretrained的效果本来就一般般。。要再训练

1

在训了,在训了,但是又发现俩问题: ① 想训练wavernn声码器,执行python vocoder_train.py 命令会报错, 提示vocoder_train.py: error: the following arguments are required: vocoder_type ② 没办法,那我就去训练hifigan声码器, 执行python vocoder_train.py hifigan 没有报错。 但训练时控制台一直打印这种 Epoch: 187 Time taken for epoch 187 is 3 sec Epoch: 188 Time taken for epoch 188 is 3 sec ... Epoch: 3100 Time taken for epoch 3100 is 3 sec 然后就没有然后了,\vocoder\saved_models\xxx是有的,但里面只有俩日志,没有训练好的pt文件