[2noise/ChatTTS]创建了一个汇总安装指南、参数说明、音色列表、常见问题、资源推荐的项目,建议新手遇到问题可以先看看

2024-06-12 635 views
8

把 Issues 中的常见问题都过了一遍,整理了一个汇总项目,使用中如果遇到问题可以去看看

项目地址:ChatTTS-Control,觉得有用还请打赏个 Star 支持一下


项目亮点
  1. 抽离了更多参数,在 web-ui 中可以更加方便地进行调整。
  2. 收集和测试不同音色 Seed ,整理成表格方便选用。
  3. 整理了各个细分方向上的 fork 资源,满足更多场景下的使用需求。
  4. 整理了常见报错的解决方案,方便快速定位和解决问题。

功能优化
  1. 添加了遗漏的需处理的中文标点字符,修复了生成的语音中可能出现的读出控制单元的问题。
  2. 增加了多音字的初步处理,主要是“得”和“地”,使生成的语音听起来更加自然流畅。
  3. 增加了长文本分段功能,分段处理后自动再合并为单个音频文件,避免了过长的文本生成效果失控的问题。
  4. 增加了 script.py 示例脚本,包含了常见问题和报错中的解决方案说明 。

web-ui

回答

7

不错,点赞,可否考虑研究一下流式合成?

1

非常感谢你的项目!

2

提一个问题:固定seed后,在当前环境下多次运行同一个text的确可以保证合成出来的音频完全一样,但是不代表同样的seed在其他机器上也能合成出来和你一样的结果。

建议考虑下在抽卡遇到合适的音色时,除了保存seed以外,同时保存 rand_spk = chat.sample_random_speaker() 这样的一个结果到本地,维护好 <seed, rand_spk>的列表。在共享音色的时候,其实共享的应该是 rand_spk。

7

函文已收:大函细读,尊意俱悉!黄少南15208159495,承蒙关注,特此感谢!

2

提一个问题:固定seed后,在当前环境下多次运行同一个text的确可以保证合成出来的音频完全一样,但是不代表同样的seed在其他机器上也能合成出来和你一样的结果。

建议考虑下在抽卡遇到合适的音色时,除了保存seed以外,同时保存 rand_spk = chat.sample_random_speaker() 这样的一个结果到本地,维护好 <seed, rand_spk>的列表。在共享音色的时候,其实共享的应该是 rand_spk。

谢谢提醒,明天测试一下,继续优化

4

文档这里 写错了

conda install -c conda-forge pynini=2.1.5 && pip install nemo_text_processing

应该是

conda install -c conda-forge pynini=2.1.5 && pip install WeTextProcessing