[2noise/ChatTTS]有没有考虑过采用类似encodec的结构呢

我理解的模型通过LLM获得离散的信息，然后通过DVAE decoder获得mel谱，再通过vocos还原音频，有没有考虑过直接将离散的信息换成类似encodec这样的结构呢，这样做会有什么弊端吗？

zhiqiuiyiye

encodec方案的token显著多于mel+vq+vocoder方案，而且需要修改transformer的训练方式，可以参考voicecraft、valle这些项目，mel+vq直接用image的方法即可。只做speech的话，两种方案音质上其实差距不明显，encodec音质上限高一点。

haidog-yaqub

pengzhendong

paulpaul91

对应vall-e里，就是AR先解码语义特征，NAR后解码声学特征，层次化是这个意思吗

wwfcnu

回答