[2noise/ChatTTS]我总结一下有几个问题

音色不稳定,同样的配置,一会儿是男声一会儿是女声. 同时我发现,阅读数字的时候好像有问题. 例如句子中含有618,我的样例,618就没读出来
这个项目的协议是Attribution-NonCommercial-NoDerivatives 4.0 International 不可商用,意味着折腾完了,也无法商用.

jiemar

我也一样 WARNING:ChatTTS.core:Invalid characters found! : {'“', '》', '2', '9', '《', '”', '5'}

wzhpro

一会儿男生一会儿女生是因为在试例代码中 rand_spk = torch.randn(768) * std + mean本身就是随机选择说话人，你限定某一个值就是固定的。

anitman

音色不稳定,同样的配置,一会儿是男声一会儿是女声. 同时我发现,阅读数字的时候好像有问题. 例如句子中含有618,我的样例,618就没读出来

这个项目的协议是Attribution-NonCommercial-NoDerivatives 4.0 International 不可商用,意味着折腾完了,也无法商用.

针对你的商用，我的理解是它也不可能商用，因为作者在预训练的时候加入了高频噪声，是为了防止滥用加入的。这就意味着底模的质量作为商用是肯定不行的。

anitman

长文本infer的时候，某些text会被"消失"，莫名其妙
batch infer的时候，一个batch里的音色也会不一样（已经用了种子去控制）

paulcx

长文本infer的时候，某些text会被"消失"，莫名其妙

batch infer的时候，一个batch里的音色也会不一样（已经用了种子去控制）

我的理解是长文本infer吞字和GPT-sovits和fishspeech一样，都用了GPT model，这个解决不了吞字的问题，只能多次生成抽卡。

anitman

吞字是因为文本过长, 一次最多30s, 最好25s以内. 数字读不了已经有warning了, 需要把这些invalid token转换为文字或者合法符号.

lich99

音色不稳定,同样的配置,一会儿是男声一会儿是女声. 同时我发现,阅读数字的时候好像有问题. 例如句子中含有618,我的样例,618就没读出来

这个项目的协议是Attribution-NonCommercial-NoDerivatives 4.0 International 不可商用,意味着折腾完了,也无法商用.

针对你的商用，我的理解是它也不可能商用，因为作者在预训练的时候加入了高频噪声，是为了防止滥用加入的。这就意味着底模的质量作为商用是肯定不行的。

不是吧。不能用那玩啥。玩个寂寞啊

tongxin3267

散了吧，用不了，玩玩还行，不过没必要

ifredom

确实莫名其妙……七八个字的一句话总是报错 WARNING:ChatTTS.core:Invalid characters found! : {']', '['}

babyNEKO

不能控制音色（包括长文本）一致性，这东西就没有什么实用性。

paulcx

[2noise/ChatTTS]我总结一下有几个问题

回答