9
from utils import load_model_on_gpus model = load_model_on_gpus("THUDM/chatglm-6b", num_gpus=2) 使用以上官方代码部署多卡推理 多卡部署高并发测试问题:部署阶段可以平均分配显存,为啥推理预测时不行? 当我高并发测试时,其中一张卡显存一直在涨,另一张显卡显存占用始终不变。直到第一张显卡显存涨到顶就崩掉。为啥第一张卡快满了,不能把剩余的显存分配到另外一张卡上?
多卡部署高并发测试问题:部署阶段可以平均分配显存,为啥推理预测时不行?
当我高并发测试时,其中一张卡显存一直在涨,另一张显卡显存占用始终不变。直到第一张显卡显存涨到顶就崩掉。为啥第一张卡快满了,不能把剩余的显存分配到另外一张卡上?