8
Hi,我目前已经用GPTQ对ChatGLM-6B做了8/4bit的量化,量化后的模型依旧能够流畅对话。想问一下如果如果贡献这部分内容的话,该怎么操作。我想了一些可能的形式哈:
- 直接贡献GPTQ calibrated 的模型参数,并适配ChatGLM的推理流程。
- 我对GPTQ做了一定的工具化,可以把这部分内容直接直接贡献到.quantize接口里来
上面两种方法背后都还有一些待讨论的点,例如GPTQ理论上应该是比min/max的算法要好,但是他需要一定的calibration set,我手边没有相关数据集来采样calibration set,也没办法定量说明GPTQ calibrated的模型精度好于min/max。以及GPTQ的校准过程会有更高的内存/显存的要求。