[2noise/ChatTTS]生成最后一个预设英文示例的 tts 音频出现问题

这是我选择的：

这里有奇怪的音频： https://github.com/neoyxm/misc/raw/main/audio.mp3

听起来像是德国人在说话。

neoyxm

我们需要更多信息。其他设置都是默认的吗？你的环境是什么？在我的平台（Apple M1）上，这个音频听起来像audio.mp3.zip

fumiama

我没有更改任何代码，只是克隆代码并运行：

python example/web/webui.py

以下是更多信息：

GPU: RTX 4090
Platform: Ubuntu 22.04.3 
Dirver and CUDA:  NVIDIA-SMI 535.171.04             Driver Version: 535.171.04   CUDA Version: 12.2  
key pip  packages:

Package                   Version     Editable project location
------------------------- ----------- -------------------------
numpy                     1.26.4
nvidia-cublas-cu12        12.1.3.1
nvidia-cuda-cupti-cu12    12.1.105
nvidia-cuda-nvrtc-cu12    12.1.105
nvidia-cuda-runtime-cu12  12.1.105
nvidia-cudnn-cu12         8.9.2.26
nvidia-cufft-cu12         11.0.2.54
nvidia-curand-cu12        10.3.2.106
nvidia-cusolver-cu12      11.4.5.107
nvidia-cusparse-cu12      12.1.0.106
nvidia-nccl-cu12          2.20.5
nvidia-nvjitlink-cu12     12.5.82
nvidia-nvtx-cu12          12.1.105
torch                     2.3.1
torchaudio                2.3.1
tqdm                      4.66.4
traitlets                 5.14.3
transformers              4.42.4
triton                    2.3.1

neoyxm

尝试

import torch

print(torch.cuda.is_available())

如果输出为False，请尝试安装正确的 torch 版本并启用 CUDA。如果是True，请尝试通过编辑examples/web/funcs.py函数在 CPU 上运行load_chat，替换

ret = chat.load(coef=coef, compile=sys.platform != "win32")

和

ret = chat.load(coef=coef, compile=sys.platform != "win32", device="cpu")

fumiama

我在我的 Mac M2 笔记本上重现了类似的问题。重现步骤：1.从 github 克隆最新代码 rev: 51ec0c784c2795b257d7a6b64274e7a36186b731

创建一个新的 conda env + python 3.10
pip 安装-r 要求.txt
python 示例/web/webui.py

以下是示例音频： https: //github.com/neoyxm/misc/raw/main/audio_mac_m2.mp3

neoyxm

尝试最新dev分支。

fumiama

dev 分支可以正常工作。主分支似乎出了问题。而且该缺陷不仅影响英文文本，还影响 Linux 平台上的中文文本 + cuda。

请看一下那个。

neoyxm

好吧，尽管 vLLM 功能仍在开发中，但我们似乎需要将 dev 分支同步到 main。

fumiama

[2noise/ChatTTS]生成最后一个预设英文示例的 tts 音频出现问题

回答