[THUDM/ChatGLM-6B][Help] 是否支持多进程部署

2024-07-12 64 views
7

api.py 文件提供了使用uvicorn 结合 FastAPI 进行部署的例子

uvicorn 服务器启动时,workers 数量设置为1, 这是否是由于在多进程模式下,无法加载模型才这样设置的呢?

使用python web框架部署时,是否支持多进程部署方式呢?

Environment
- OS:
- Python:
- Transformers:
- PyTorch:
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :

回答

2

我是Django + gunicorn部署的,原先gunicorn配置的workers=1,发现只能同时响应一个请求。

设置 workers = 2 的时候,就能并发2个请求了,但是显存也会翻倍。如果要支持高并发的话感觉就很费显卡了

image
0

加一层消息队列好了

9

有办法让模型只加载一份,但是能实现并发吗?比如进程/线程间共享变量?

3

同问。而且我用的多卡启动方式,高并发请求结束会导致第一张卡显存无法彻底回收,最终导致第一张卡显存占满。

8

大佬,请问是怎么部署的可以发下源码吗

1

请问具体怎么操作可以请教下吗