0
我理解的模型通过LLM获得离散的信息,然后通过DVAE decoder获得mel谱,再通过vocos还原音频,有没有考虑过直接将离散的信息换成类似encodec这样的结构呢,这样做会有什么弊端吗?
我理解的模型通过LLM获得离散的信息,然后通过DVAE decoder获得mel谱,再通过vocos还原音频,有没有考虑过直接将离散的信息换成类似encodec这样的结构呢,这样做会有什么弊端吗?
encodec方案的token显著多于mel+vq+vocoder方案,而且需要修改transformer的训练方式,可以参考voicecraft、valle这些项目,mel+vq直接用image的方法即可。 只做speech的话,两种方案音质上其实差距不明显,encodec音质上限高一点。
M
对应vall-e里,就是AR先解码语义特征,NAR后解码声学特征,层次化是这个意思吗