[2noise/ChatTTS]我总结一下有几个问题

2024-06-05 150 views
7
  1. 音色不稳定,同样的配置,一会儿是男声一会儿是女声. 同时我发现,阅读数字的时候好像有问题. 例如句子中含有618,我的样例,618就没读出来

  2. 这个项目的协议是Attribution-NonCommercial-NoDerivatives 4.0 International 不可商用,意味着折腾完了,也无法商用.

回答

4

我也一样 WARNING:ChatTTS.core:Invalid characters found! : {'“', '》', '2', '9', '《', '”', '5'}

3

一会儿男生一会儿女生是因为在试例代码中 rand_spk = torch.randn(768) * std + mean本身就是随机选择说话人,你限定某一个值就是固定的。

3
  1. 音色不稳定,同样的配置,一会儿是男声一会儿是女声. 同时我发现,阅读数字的时候好像有问题. 例如句子中含有618,我的样例,618就没读出来
  2. 这个项目的协议是Attribution-NonCommercial-NoDerivatives 4.0 International 不可商用,意味着折腾完了,也无法商用.

针对你的商用,我的理解是它也不可能商用,因为作者在预训练的时候加入了高频噪声,是为了防止滥用加入的。这就意味着底模的质量作为商用是肯定不行的。

5
  1. 长文本infer的时候,某些text会被"消失",莫名其妙
  2. batch infer的时候,一个batch里的音色也会不一样(已经用了种子去控制)
1
  1. 长文本infer的时候,某些text会被"消失",莫名其妙
  2. batch infer的时候,一个batch里的音色也会不一样(已经用了种子去控制)

我的理解是长文本infer吞字和GPT-sovits和fishspeech一样,都用了GPT model,这个解决不了吞字的问题,只能多次生成抽卡。

7

吞字是因为文本过长, 一次最多30s, 最好25s以内. 数字读不了已经有warning了, 需要把这些invalid token转换为文字或者合法符号.

3
  1. 音色不稳定,同样的配置,一会儿是男声一会儿是女声. 同时我发现,阅读数字的时候好像有问题. 例如句子中含有618,我的样例,618就没读出来
  2. 这个项目的协议是Attribution-NonCommercial-NoDerivatives 4.0 International 不可商用,意味着折腾完了,也无法商用.

针对你的商用,我的理解是它也不可能商用,因为作者在预训练的时候加入了高频噪声,是为了防止滥用加入的。这就意味着底模的质量作为商用是肯定不行的。

不是吧。不能用那玩啥。玩个寂寞啊

5

散了吧,用不了,玩玩还行,不过没必要

1

确实莫名其妙……七八个字的一句话总是报错 WARNING:ChatTTS.core:Invalid characters found! : {']', '['}

4

不能控制音色(包括长文本)一致性,这东西就没有什么实用性。