[2noise/ChatTTS]一些参数的含义问题

2024-06-05 945 views
6

请问推理代码中'[speed_5],[oral_2],[laugh_0],[break_6]这些参数都是用来干什么的啊,有什么意义么,源代码如下 params_infer_code = {'prompt':'[speed_5]', 'temperature':.3} params_refine_text = {'prompt':'[oral_2][laugh_0][break_6]'}

回答

8

从这些单词可以猜测, 是语速, 腔调, 笑声, 停顿的special token, 后面跟的数字可能是不同的风格

1

从这些单词可以猜测, 是语速, 腔调, 笑声, 停顿的special token, 后面跟的数字可能是不同的风格

嗯嗯嗯对的看起来像是,也就是说可能是训练过程中也添加了这些信息,像oral_2这些都对应了一种风格么(训练数据集中划分的不同风格),可以这么理解么

1

调整seed算是不同风格 不同音色,[speed_5],[oral_2],[laugh_0],[break_6] 这些后面的数字代表refine text的过程中要加入的程度,可以理解成数字越大text中出现的次数越多,但和次数不是对等的

1

从这些单词可以猜测, 是语速, 腔调, 笑声, 停顿的special token, 后面跟的数字可能是不同的风格

嗯嗯嗯对的看起来像是,也就是说可能是训练过程中也添加了这些信息,像oral_2这些都对应了一种风格么(训练数据集中划分的不同风格),可以这么理解么

从这些单词可以猜测, 是语速, 腔调, 笑声, 停顿的special token, 后面跟的数字可能是不同的风格

嗯嗯嗯对的看起来像是,也就是说可能是训练过程中也添加了这些信息,像oral_2这些都对应了一种风格么(训练数据集中划分的不同风格),可以这么理解么

oral_2我猜是个人口语化的表达出现两次,比如“然后”这些词

2

希望官方出个详细的说明,学习一下,谢谢