比如配置文件写gpt-3.5-turbo-auto
(定义知道新的模型名)或者gpt-3.5-turbo|gpt-3.5-turbo-16k
(使用符号分割可用模型列表),实际会根据前端输入的tokens数量选择使用4k还是16k。
因为存在一个场景:已知16k和4k回答质量相同,16k单价比4k贵。后端设置固定16k之后,可能只有很少有对话能超过4k,大量对话使用4k就能完成,这样就多了很多不必要的费用。
同理还有GPT-4的两个不同长度的模型。
不成熟的想法,希望可以讨论一下,也请开发者考虑,谢谢。