1
chattts确实是目前开源tts的天花板。 但用于实际应用,应该还要解决下面几个问题:
- 训练自己的语音(克隆)
- 加速推理(目前推理速度太慢,很难做到机器人实时对话)
- 推理结果流式输出(做到机器人实时对话必须要流式输出)
咨询过作者,关于推理加速,以及流式输出,作者希望由社区来自主开发完成。不知道有没有有兴趣的朋友已经在动手做了?
chattts确实是目前开源tts的天花板。 但用于实际应用,应该还要解决下面几个问题:
咨询过作者,关于推理加速,以及流式输出,作者希望由社区来自主开发完成。不知道有没有有兴趣的朋友已经在动手做了?
关于第2点深有体会。我本地环境,vits-fine-tuning的话,加载完模型,生成一个3-5秒的语音不到1s,而chatTTS要20多秒 再一个就是,加[laugh]也不一定能出来笑声,感觉像抽卡一样,有时可以有时不行。
没数据一切都是无用功