[THUDM/ChatGLM-6B][Help] 是否支持多进程部署

api.py 文件提供了使用uvicorn 结合 FastAPI 进行部署的例子

uvicorn 服务器启动时，workers 数量设置为1，这是否是由于在多进程模式下，无法加载模型才这样设置的呢？

使用python web框架部署时，是否支持多进程部署方式呢？

Environment

- OS:
- Python:
- Transformers:
- PyTorch:
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :

kwsy

我是Django + gunicorn部署的，原先gunicorn配置的workers=1，发现只能同时响应一个请求。

设置 workers = 2 的时候，就能并发2个请求了，但是显存也会翻倍。如果要支持高并发的话感觉就很费显卡了

ray-008

加一层消息队列好了

SkySlity

有办法让模型只加载一份，但是能实现并发吗？比如进程/线程间共享变量？

geolvr

同问。而且我用的多卡启动方式，高并发请求结束会导致第一张卡显存无法彻底回收，最终导致第一张卡显存占满。

sportzhang

大佬，请问是怎么部署的可以发下源码吗

Zimo777

请问具体怎么操作可以请教下吗

Zimo777

回答