请问推理代码中'[speed_5],[oral_2],[laugh_0],[break_6]这些参数都是用来干什么的啊,有什么意义么,源代码如下 params_infer_code = {'prompt':'[speed_5]', 'temperature':.3} params_refine_text = {'prompt':'[oral_2][laugh_0][break_6]'}
Q
[2noise/ChatTTS]一些参数的含义问题
7
A
回答
8
从这些单词可以猜测, 是语速, 腔调, 笑声, 停顿的special token, 后面跟的数字可能是不同的风格
9
从这些单词可以猜测, 是语速, 腔调, 笑声, 停顿的special token, 后面跟的数字可能是不同的风格
嗯嗯嗯对的看起来像是,也就是说可能是训练过程中也添加了这些信息,像oral_2这些都对应了一种风格么(训练数据集中划分的不同风格),可以这么理解么
2
调整seed算是不同风格 不同音色,[speed_5],[oral_2],[laugh_0],[break_6] 这些后面的数字代表refine text的过程中要加入的程度,可以理解成数字越大text中出现的次数越多,但和次数不是对等的
8
从这些单词可以猜测, 是语速, 腔调, 笑声, 停顿的special token, 后面跟的数字可能是不同的风格
嗯嗯嗯对的看起来像是,也就是说可能是训练过程中也添加了这些信息,像oral_2这些都对应了一种风格么(训练数据集中划分的不同风格),可以这么理解么
从这些单词可以猜测, 是语速, 腔调, 笑声, 停顿的special token, 后面跟的数字可能是不同的风格
嗯嗯嗯对的看起来像是,也就是说可能是训练过程中也添加了这些信息,像oral_2这些都对应了一种风格么(训练数据集中划分的不同风格),可以这么理解么
oral_2我猜是个人口语化的表达出现两次,比如“然后”这些词
7
希望官方出个详细的说明,学习一下,谢谢