-
音色不稳定,同样的配置,一会儿是男声一会儿是女声. 同时我发现,阅读数字的时候好像有问题. 例如句子中含有618,我的样例,618就没读出来
-
这个项目的协议是Attribution-NonCommercial-NoDerivatives 4.0 International 不可商用,意味着折腾完了,也无法商用.
Q
[2noise/ChatTTS]我总结一下有几个问题
7
A
回答
4
我也一样 WARNING:ChatTTS.core:Invalid characters found! : {'“', '》', '2', '9', '《', '”', '5'}
3
一会儿男生一会儿女生是因为在试例代码中 rand_spk = torch.randn(768) * std + mean本身就是随机选择说话人,你限定某一个值就是固定的。
3
- 音色不稳定,同样的配置,一会儿是男声一会儿是女声. 同时我发现,阅读数字的时候好像有问题. 例如句子中含有618,我的样例,618就没读出来
- 这个项目的协议是Attribution-NonCommercial-NoDerivatives 4.0 International 不可商用,意味着折腾完了,也无法商用.
针对你的商用,我的理解是它也不可能商用,因为作者在预训练的时候加入了高频噪声,是为了防止滥用加入的。这就意味着底模的质量作为商用是肯定不行的。
5
- 长文本infer的时候,某些text会被"消失",莫名其妙
- batch infer的时候,一个batch里的音色也会不一样(已经用了种子去控制)
1
- 长文本infer的时候,某些text会被"消失",莫名其妙
- batch infer的时候,一个batch里的音色也会不一样(已经用了种子去控制)
我的理解是长文本infer吞字和GPT-sovits和fishspeech一样,都用了GPT model,这个解决不了吞字的问题,只能多次生成抽卡。
7
吞字是因为文本过长, 一次最多30s, 最好25s以内. 数字读不了已经有warning了, 需要把这些invalid token转换为文字或者合法符号.
3
- 音色不稳定,同样的配置,一会儿是男声一会儿是女声. 同时我发现,阅读数字的时候好像有问题. 例如句子中含有618,我的样例,618就没读出来
- 这个项目的协议是Attribution-NonCommercial-NoDerivatives 4.0 International 不可商用,意味着折腾完了,也无法商用.
针对你的商用,我的理解是它也不可能商用,因为作者在预训练的时候加入了高频噪声,是为了防止滥用加入的。这就意味着底模的质量作为商用是肯定不行的。
不是吧。不能用那玩啥。玩个寂寞啊
5
散了吧,用不了,玩玩还行,不过没必要
1
确实莫名其妙……七八个字的一句话总是报错
WARNING:ChatTTS.core:Invalid characters found! : {']', '['}
4
不能控制音色(包括长文本)一致性,这东西就没有什么实用性。