[2noise/ChatTTS]对时间播报的任务效果不好,是因为缺样本么?

2024-08-19 288 views

回答

7

应该是没有normalizer导致的,建议全部写成汉字推理。阿拉伯数字是无法被识别的。

6
  1. 下载这个 https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/paddlespeech/t2s/frontend/zh_normalization

  2. 你可能需要安装 pypinyin

    #pip install pypinyin
    from zh_normalization import text_normlization
    mn = text_normlization.TextNormalizer()
    test_txt = """
    直至今日我都不知道当时30亿和50亿这两个数字是从哪里冒出来的,很显然那时我并不理解数字是怎么回事儿。
    """
    tmp_n =  mn.normalize_sentence(test_txt)
    print(tmp_n)

直至今日我都不知道当时三十亿和五十亿这两个数字是从哪里冒出来的,很显然那时我并不理解数字是怎么回事儿。

image

8

新版本是要自己作zh_normalization了是吗,那do_text_normalization没用了?

8

chat.normailzer.register('zh', function_name)

方法注册一个新的中文normalizer。

1

亲侧可行,之前好像默认就是用tn.chinese.normalizer,新在需要手动注册

6

注册from zh_normalization import text_normlization 这个中文norm模块后,解决了数字问题, 又面临中英文混合句子中,英文单词发音错误,如何处理好呢?

4

可以举一个例句