[2noise/ChatTTS]在服务器部署后，推理速度比较慢，GPU没有吃满，吃满了一个CPU核心

在服务器部署后，推理速度比较慢，GPU没有吃满，吃满了一个CPU核心，是不是我的部署方法有问题

godusoppp

bigquant

我这里测试GPU没有占用满，CPU占用不高 https://bigquant.com/wiki/doc/chatttsbigquant-aistudio-RAStAgPcKf

感谢回复，我的推理代码跟你这里基本一致，请问你在使用的时候是否是有单核/单线程 CPU吃满的情况导致瓶颈，我使用windows与linux都是出现吃满单个核心，GPU没有吃满，GPU型号为A10

godusoppp

用的是 G0资源（4C/16G/1GPU）。如下是 nvitop 和 htop 看到资源监控。CPU没有明显增加消耗。

bigquant

刚才试了一下只用 CPU，会慢几十倍（CPU负载也不高）。你可以先确认下是不是没有用上GPU。

bigquant

是使用GPU的，A10一次生成大约3句英文需要5秒钟，我在查找如何加速推理

godusoppp

推理GPU占用不满很正常，vllm可以加速但改起来有点复杂

lich99

可以修改core.py中的compile bool = True，改为False，看看性能是不是有所改善。

anitman

可以修改core.py中的compile bool = True，改为False，看看性能是不是有所改善。

感谢回复，但是在core.py没有找到compile这个参数

godusoppp

可以修改core.py中的compile bool = True，改为False，看看性能是不是有所改善。

在最新的代码中找到了，性能比较原先有了一些改善，感谢！

godusoppp

我这边也是compile默认True的情况下，服务器只使用一个cpu，我是28核的服务器，设置成False后，会同时使用多个CPU了，感觉好点。但是为什么CPU占用这么严重。

findlymw

可以修改core.py中的compile bool = True，改为False，看看性能是不是有所改善。

在最新的代码中找到了，性能比较原先有了一些改善，感谢！

但这个并不是最好的方案，因为torch.compile是为了提升性能，可以提升好几倍，改成false是因为torch.compile的兼容性有点问题，目前只支持linux，而且并不是所有的linux发行版本都能保证没有兼容性问题。

anitman

回答