使用工程中的 api.py启动。 进行推理,推理内容为: {"prompt": "帮我写一段java招聘信息,要求2年工作经验,会国产数据库,会rabbitmq,能需求分析", "history": []}
返回内容大概有240~270字不等。
用jmeter进行压力测试,结果为如下图,10个并发下吞吐量4.5个每分钟 过程中,发现有1核CPU使用率为100%,GPU使用率为44%,也就是CPU只使用了1核心,导致不能处理更多的请求,GPU并不能跑满。
使用postman对项目进行debug,发现在下图代码行处理速度挺慢,并且这行代码执行时CPU中1核跑满,GPU40%~50%
glm在推理时一定要用cpu么,推理不应该都在GPU上跑的么?如何能把CPU多核心用起来,不然都挤在一个核心上,拖慢推理速度。 还是说 有什么设置不对,导致了用到了CPU,在跑之前代码没动过。
用jmeter进行压力测试,结果为如下图,10个并发下吞吐量4.5个每分钟 过程中,发现有1核CPU使用率为100%,GPU使用率为44%,也就是CPU只使用了1核心,导致不能处理更多的请求,GPU并不能跑满。
使用postman对项目进行debug,发现在下图代码行处理速度挺慢,并且这行代码执行时CPU中1核跑满,GPU40%~50%
Environment- OS: ubuntu 22
- Python: 3.8.16
- Transformers: 4.27.1
- PyTorch: 1.13.1
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) : 是