[2noise/ChatTTS]在chattts现有模型上进行加速推理和流式语音输出

2024-06-05 474 views
0

chattts确实是目前开源tts的天花板。 但用于实际应用,应该还要解决下面几个问题:

  1. 训练自己的语音(克隆)
  2. 加速推理(目前推理速度太慢,很难做到机器人实时对话)
  3. 推理结果流式输出(做到机器人实时对话必须要流式输出)

咨询过作者,关于推理加速,以及流式输出,作者希望由社区来自主开发完成。不知道有没有有兴趣的朋友已经在动手做了?

回答

3

关于第2点深有体会。我本地环境,vits-fine-tuning的话,加载完模型,生成一个3-5秒的语音不到1s,而chatTTS要20多秒 再一个就是,加[laugh]也不一定能出来笑声,感觉像抽卡一样,有时可以有时不行。

7

没数据一切都是无用功