Merge pull request #314 from KakaruHayate/patch-6

优化日英/中英混合推理分词逻辑
2 years ago · 53817b983c
parent f143ea97fb d6629a8c6c
commit 53817b983c
1 changed files with 16 additions and 1 deletions
--- a/GPT_SoVITS/inference_webui.py
+++ b/GPT_SoVITS/inference_webui.py
@ -200,7 +200,7 @@ dict_language = {


 def splite_en_inf(sentence, language):
-    pattern = re.compile(r'[a-zA-Z. ]+')
+    pattern = re.compile(r'[a-zA-Z ]+')
    textlist = []
    langlist = []
    pos = 0
@ -215,6 +215,21 @@ def splite_en_inf(sentence, language):
    if pos < len(sentence):
        textlist.append(sentence[pos:])
        langlist.append(language)
+    # Merge punctuation into previous word
+    for i in range(len(textlist)-1, 0, -1):
+        if re.match(r'^[\W_]+$', textlist[i]):
+            textlist[i-1] += textlist[i]
+            del textlist[i]
+            del langlist[i]
+    # Merge consecutive words with the same language tag
+    i = 0
+    while i < len(langlist) - 1:
+        if langlist[i] == langlist[i+1]:
+            textlist[i] += textlist[i+1]
+            del textlist[i+1]
+            del langlist[i+1]
+        else:
+            i += 1

    return textlist, langlist