[THUDM/ChatGLM-6B]多卡部署高并发测试问题:部署可以平均分配显存,为啥推理预测时不行?

2024-05-13 995 views
9

from utils import load_model_on_gpus model = load_model_on_gpus("THUDM/chatglm-6b", num_gpus=2) 使用以上官方代码部署多卡推理 多卡部署高并发测试问题:部署阶段可以平均分配显存,为啥推理预测时不行? 当我高并发测试时,其中一张卡显存一直在涨,另一张显卡显存占用始终不变。直到第一张显卡显存涨到顶就崩掉。为啥第一张卡快满了,不能把剩余的显存分配到另外一张卡上?

多卡部署高并发测试问题:部署阶段可以平均分配显存,为啥推理预测时不行?
当我高并发测试时,其中一张卡显存一直在涨,另一张显卡显存占用始终不变。直到第一张显卡显存涨到顶就崩掉。为啥第一张卡快满了,不能把剩余的显存分配到另外一张卡上?

回答

6

mark

8

+1,不过高并发一般可以试试多实例部署吧

7

mark

4

你并发是咋实现的

1

mark

5

试试添加 os.environ["CUDA_VISIABLE_DEVICES"]="1,2"

3

推理,有cache,每一层cache的东西不一样。