[2noise/ChatTTS]ChatTTS除了有音频的输出,如何拿到生成字符和对应时间段的 word boundary信息?

2024-08-19 773 views
8

你好,从例子里我可以很直接的拿到给定文本合成后的音频文件,但是我们的项目还需要进一步的信息:就是对于每个合成的元素在音频文件里发音的时间段。我们也会用这个信息来验证合成的内容是否和输入的内容一致。

这个信息在合成的时候肯定是存在的,不知道ChatTTS有没有wrap过并对外提供输出接口。谢谢。

回答

8

理论上存在,实际上基本无法使用。

对于此问题,您可以考虑比对refined_text或将生成的音频TTS后比对其文本。

4

这个不太明白了,我在用Azure TTS的时候,这个信息是可以被返回回来的。 即便现在的合成的单位是词表里的那些Token,也应该可以拿到Token level的信息? 至少NLP任务在decode的时候,每个Token的信息总是有的。 当然了,我不是搞speech的,有些细节不太明白。 但是没有这boundary的信息,对我们后续处理确实不太友好。