[babysor/MockingBird]vc模式下电音(模型兼容性)以及24khifi_仅仅只有16000hz的问题,以及对要变声的输入hz的自适应和输出是否能达到41000hz的假设

2024-06-27 271 views
1

encode太大而vocode仅仅只有16000hz,一听就知道是类似于采样率解释的问题(一般的win设备最高只有48000采样率)(而且还有电音) windows10 \dell G3 3500(RTX-2060)\vscode insider\3.9.12 pip only image

回答

8

有一说一自己训练的和自带的vocoder: pretrained以及其他模型如rnn都能正常运作,有的甚至比24k清晰不知道多少倍,但是生成的电音实在是太严重,你还是可以听出夹杂其中优秀的目标嗓音

7

我这里全是杂音

3

你这里要自己调参数,random什么的多调调 我的参数 random 10 (多改改) style2 accurate 8 屏幕截图 2022-07-17 153913

1

如何解决