现在大模型都是流式输出,要是可以流式输入就可以减少响应时间。
luisxin
原理上不支持。LLM大模型本身也无法支持流式输入提示词。如需加速推理,可尝试dev分支,我们正在适配vLLM,提速很明显。
dev
vLLM
fumiama