[THUDM/ChatGLM-6B]多卡部署高并发测试问题：部署可以平均分配显存，为啥推理预测时不行？

2024-05-13 849 views 3 likes

from utils import load_model_on_gpus model = load_model_on_gpus("THUDM/chatglm-6b", num_gpus=2) 使用以上官方代码部署多卡推理多卡部署高并发测试问题：部署阶段可以平均分配显存，为啥推理预测时不行？当我高并发测试时，其中一张卡显存一直在涨，另一张显卡显存占用始终不变。直到第一张显卡显存涨到顶就崩掉。为啥第一张卡快满了，不能把剩余的显存分配到另外一张卡上？

多卡部署高并发测试问题：部署阶段可以平均分配显存，为啥推理预测时不行？
当我高并发测试时，其中一张卡显存一直在涨，另一张显卡显存占用始终不变。直到第一张显卡显存涨到顶就崩掉。为啥第一张卡快满了，不能把剩余的显存分配到另外一张卡上？

dizhenx

回答

mark

zhangtianyu1

+1，不过高并发一般可以试试多实例部署吧

MurrayC7

mark

Tungsong

你并发是咋实现的

Vange95

mark

hongyihui

试试添加 os.environ["CUDA_VISIABLE_DEVICES"]="1,2"

kongmo

推理，有cache，每一层cache的东西不一样。

tomcat123a