在服务器部署后,推理速度比较慢,GPU没有吃满,吃满了一个CPU核心,是不是我的部署方法有问题
[2noise/ChatTTS]在服务器部署后,推理速度比较慢,GPU没有吃满,吃满了一个CPU核心
回答
我这里测试GPU没有占用满,CPU占用不高 https://bigquant.com/wiki/doc/chatttsbigquant-aistudio-RAStAgPcKf
我这里测试GPU没有占用满,CPU占用不高 https://bigquant.com/wiki/doc/chatttsbigquant-aistudio-RAStAgPcKf
感谢回复,我的推理代码跟你这里基本一致,请问你在使用的时候是否是有单核/单线程 CPU吃满的情况导致瓶颈,我使用windows与linux都是出现吃满单个核心,GPU没有吃满,GPU型号为A10
用的是 G0资源(4C/16G/1GPU)。如下是 nvitop 和 htop 看到资源监控。CPU没有明显增加消耗。
刚才试了一下只用 CPU,会慢几十倍(CPU负载也不高)。你可以先确认下是不是没有用上GPU。
是使用GPU的,A10一次生成大约3句英文需要5秒钟,我在查找如何加速推理
推理GPU占用不满很正常,vllm可以加速但改起来有点复杂
可以修改core.py中的compile bool = True,改为False,看看性能是不是有所改善。
可以修改core.py中的compile bool = True,改为False,看看性能是不是有所改善。
感谢回复,但是在core.py没有找到compile这个参数
可以修改core.py中的compile bool = True,改为False,看看性能是不是有所改善。
在最新的代码中找到了,性能比较原先有了一些改善,感谢!
我这边也是compile默认True的情况下,服务器只使用一个cpu,我是28核的服务器,设置成False后,会同时使用多个CPU了,感觉好点。但是为什么CPU占用这么严重。
可以修改core.py中的compile bool = True,改为False,看看性能是不是有所改善。
在最新的代码中找到了,性能比较原先有了一些改善,感谢!
但这个并不是最好的方案,因为torch.compile是为了提升性能,可以提升好几倍,改成false是因为torch.compile的兼容性有点问题,目前只支持linux,而且并不是所有的linux发行版本都能保证没有兼容性问题。