Download and place [ffmpeg.exe](https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/ffmpeg.exe) and [ffprobe.exe](https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/ffprobe.exe) in the GPT-SoVITS root.
Install [Visual Studio 2022](https://visualstudio.microsoft.com/downloads/) (Korean TTS Only)
Download pretrained models from [GPT-SoVITS Models](https://huggingface.co/lj1995/GPT-SoVITS) and place them in `GPT_SoVITS/pretrained_models`.
Download G2PW models from [G2PWModel-v2-onnx.zip](https://paddlespeech.bj.bcebos.com/Parakeet/released_models/g2p/G2PWModel_1.1.zip), unzip and rename to `G2PWModel`, and then place them in `GPT_SoVITS\text`.(Chinese TTS Only)
For UVR5 (Vocals/Accompaniment Separation & Reverberation Removal, additionally), download models from [UVR5 Weights](https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main/uvr5_weights) and place them in `tools/uvr5/uvr5_weights`.
Users in the China region can download these two models by entering the links below and clicking "Download a copy"(Log out if you encounter errors while downloading.)
Users in the China region can download these two models by entering the links below and clicking "Download a copy"(Log out if you encounter errors while downloading.)
- [G2PWModel_1.1.zip](https://paddlespeech.bj.bcebos.com/Parakeet/released_models/g2p/G2PWModel_1.1.zip)(Download G2PW models, unzip and rename to `G2PWModel`, and then place them in `GPT_SoVITS\text`.
For Chinese ASR (additionally), download models from [Damo ASR Model](https://modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/files), [Damo VAD Model](https://modelscope.cn/models/damo/speech_fsmn_vad_zh-cn-16k-common-pytorch/files), and [Damo Punc Model](https://modelscope.cn/models/damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch/files) and place them in `tools/asr/models`.
Or Download FunASR Model from [FunASR Model](https://www.icloud.com/iclouddrive/0b52_7SQWYr75kHkPoPXgpeQA#models), unzip and replace `tools/asr/models`.(Log out if you encounter errors while downloading.)
For English or Japanese ASR (additionally), download models from [Faster Whisper Large V3](https://huggingface.co/Systran/faster-whisper-large-v3) and place them in `tools/asr/models`. Also, [other models](https://huggingface.co/Systran) may have the similar effect with smaller disk footprint.
Users in the China region can download this model by entering the links below
@ -182,6 +189,72 @@ Example:
D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.
```
## Finetune and inference
### Open WebUI
#### Integrated Package Users
Double-click `go-webui.bat`or use `go-webui.ps`
if you want to switch to V1,then double-click`go-webui-v1.bat` or use `go-webui-v1.ps`
#### Others
```bash
python webui.py <language(optional)>
```
if you want to switch to V1,then
```bash
python webui.py v1 <language(optional)>
```
Or maunally switch version in WebUI
### Finetune
#### Path Auto-filling is now supported
1.Fill in the audio path
2.Slice the audio into small chunks
3.Denoise(optinal)
4.ASR
5.Proofreading ASR transcriptions
6.Go to the next Tab, then finetune the model
### Open Inference WebUI
#### Integrated Package Users
Double-click `go-webui-v2.bat` or use `go-webui-v2.ps` ,then open the inference webui at `1-GPT-SoVITS-TTS/1C-inference`
"使用无参考文本模式时建议使用微调的GPT,听不清参考音频说的啥(不晓得写啥)可以开。<br>开启后无视填写的参考文本。":"When using the no-reference text mode, it is recommended to use a fine-tuned GPT. If the reference audio is unclear and you don't know what to write, you can enable this feature, which will ignore the reference text you've entered.",
@ -151,6 +152,8 @@
"语音切割进程输出信息":"Audio slicer output log",
"语音降噪进程输出信息":"Voice Denoiser Process Output Information",
"请上传3~10秒内参考音频,超过会报错!":"Please upload a reference audio within the 3-10 second range; if it exceeds this duration, it will raise errors.",
"请上传参考音频":"Please Upload the Reference Audio",
"请填入推理文本":"Please Fill in the Terget Text",
"请输入有效文本":"Please enter valid text.",
"转换":"Convert",
"输入待处理音频文件夹路径":"Enter the path of the audio folder to be processed:",
"也可批量输入音频文件, 二选一, 优先读文件夹":"También se pueden ingresar archivos de audio por lotes, seleccionar uno, prioridad para leer carpetas",
"人声伴奏分离批量处理, 使用UVR5模型。":"Procesamiento por lotes de separación de voz y acompañamiento utilizando el modelo UVR5",
"人声提取激进程度":"Nivel de agresividad en la extracción de voz",
"以下文件或文件夹不存在:":"No Existe Tal Archivo o Carpeta:",
"以下模型不存在:":"No Existe tal Modelo:",
"伴奏人声分离&去混响&去回声":"Separación de acompañamiento y voz principal y eliminación de reverberación y eco",
"使用无参考文本模式时建议使用微调的GPT,听不清参考音频说的啥(不晓得写啥)可以开。<br>开启后无视填写的参考文本。":"Se recomienda usar un GPT ajustado en modo sin texto de referencia; habilítelo si no puede entender el audio de referencia (si no sabe qué escribir). Una vez habilitado, ignorará el texto de referencia ingresado.",
@ -151,6 +152,8 @@
"语音切割进程输出信息":"Información de salida del proceso de división de voz",
"语音降噪进程输出信息":"Información de salida del proceso de reducción de ruido de voz",
"请上传3~10秒内参考音频,超过会报错!":"Por favor, suba un audio de referencia de entre 3 y 10 segundos, ¡más de eso causará un error!",
"请上传参考音频":"Por Favor, Suba el Audio de Referencia",
"请填入推理文本":"Por Favor, Ingrese el Texto Objetivo",
"请输入有效文本":"Por favor, introduzca un texto válido",
"转换":"Convertir",
"输入待处理音频文件夹路径":"Ingrese la ruta de la carpeta de audio a procesar",
"也可批量输入音频文件, 二选一, 优先读文件夹":"Également possible d'entrer en lot des fichiers audio, au choix, privilégiez la lecture du dossier",
"人声伴奏分离批量处理, 使用UVR5模型。":"Traitement par lot de séparation voix-accompagnement en utilisant le modèle UVR5.",
"人声提取激进程度":"Degré d'extraction des voix",
"以下文件或文件夹不存在:":"Aucun fichier ou dossier de ce type:",
"以下模型不存在:":"Aucun Modèle de ce Type:",
"伴奏人声分离&去混响&去回声":"Séparation de la voix et de l'accompagnement, suppression de la réverbération et de l'écho",
"使用无参考文本模式时建议使用微调的GPT,听不清参考音频说的啥(不晓得写啥)可以开。<br>开启后无视填写的参考文本。":"Il est recommandé d'utiliser GPT finement ajusté en mode sans texte de référence. Si vous ne comprenez pas ce que dit l'audio de référence (vous ne savez pas quoi écrire), vous pouvez l'activer ; une fois activé, ignorez le texte de référence saisi.",
@ -151,6 +152,8 @@
"语音切割进程输出信息":"Informations de processus de découpage vocal",
"语音降噪进程输出信息":"Informations de sortie du processus de réduction du bruit vocal",
"请上传3~10秒内参考音频,超过会报错!":"Veuillez télécharger une référence audio de 3 à 10 secondes ; les fichiers plus longs généreront une erreur!",
"请上传参考音频":"Veuillez télécharger l'audio de référence",
"请填入推理文本":"Veuillez remplir le texte cible",
"请输入有效文本":"Veuillez entrer un texte valide",
"转换":"Conversion",
"输入待处理音频文件夹路径":"Entrez le chemin du dossier audio à traiter",
"也可批量输入音频文件, 二选一, 优先读文件夹":"È possibile anche inserire file audio in batch, una delle due opzioni, con priorità alla lettura della cartella",
"人声伴奏分离批量处理, 使用UVR5模型。":"Separazione voce-accompagnamento in batch, utilizza il modello UVR5.",
"人声提取激进程度":"Grado di aggressività dell'estrazione vocale",
"以下文件或文件夹不存在:":"Nessun file o cartella trovati:",
"以下模型不存在:":"Nessun Modello del Genere:",
"伴奏人声分离&去混响&去回声":"Separazione tra accompagnamento e voce & Rimozione dell'eco & Rimozione dell'eco",
"使用无参考文本模式时建议使用微调的GPT,听不清参考音频说的啥(不晓得写啥)可以开。<br>开启后无视填写的参考文本。":"Si consiglia di utilizzare GPT fine-tuned quando si utilizza la modalità senza testo di riferimento. Se non si riesce a capire cosa dice l'audio di riferimento (e non si sa cosa scrivere), è possibile abilitare questa opzione, ignorando il testo di riferimento inserito.",
@ -151,6 +152,8 @@
"语音切割进程输出信息":"Informazioni sull'output del processo di segmentazione vocale",
"语音降噪进程输出信息":"Informazioni sull'output del processo di riduzione del rumore vocale",
"请上传3~10秒内参考音频,超过会报错!":"Carica un audio di riferimento della durata compresa tra 3 e 10 secondi. Superiore a questo, verrà generato un errore!",
"请上传参考音频":"Si prega di caricare l'audio di riferimento",
"请填入推理文本":"Si prega di inserire il testo di destinazione",
"请输入有效文本":"Inserisci un testo valido",
"转换":"Converti",
"输入待处理音频文件夹路径":"Inserisci il percorso della cartella dei file audio da elaborare",
"也可批量输入音频文件, 二选一, 优先读文件夹":"오디오 파일을 일괄로 입력할 수도 있습니다. 둘 중 하나를 선택하고 폴더를 읽기를 우선합니다.",
"人声伴奏分离批量处理, 使用UVR5模型。":"보컬과 반주 분리 배치 처리, UVR5 모델 사용.",
"人声提取激进程度":"보컬 추출의 공격성",
"以下文件或文件夹不存在:":"해당 파일 또는 폴더가 존재하지 않습니다:",
"以下模型不存在:":"해당 모델이 존재하지 않습니다:",
"伴奏人声分离&去混响&去回声":"반주 및 보컬 분리 & 리버브 제거 & 에코 제거",
"使用无参考文本模式时建议使用微调的GPT,听不清参考音频说的啥(不晓得写啥)可以开。<br>开启后无视填写的参考文本。":"참고 텍스트가 없을 때는 미세 조정된 GPT를 사용하는 것이 좋습니다. 참고 오디오에서 무엇을 말하는지 잘 들리지 않으면 이 모드를 켜서 입력한 참고 텍스트를 무시할 수 있습니다.",
@ -151,6 +152,8 @@
"语音切割进程输出信息":"음성 분리 프로세스 출력 정보",
"语音降噪进程输出信息":"음성 노이즈 제거 프로세스 출력 정보",
"请上传3~10秒内参考音频,超过会报错!":"3~10초 이내의 참고 오디오를 업로드하십시오. 초과하면 오류가 발생합니다!",
"也可批量输入音频文件, 二选一, 优先读文件夹":"Também é possível inserir arquivos de áudio em lote; escolha uma opção, preferencialmente leia a pasta.",
"人声伴奏分离批量处理, 使用UVR5模型。":"Processamento em lote de separação de voz e acompanhamento, usando o modelo UVR5.",
"人声提取激进程度":"Grau de agressividade da extração de voz",
"以下文件或文件夹不存在:":"Nenhum Arquivo ou Pasta Encontrado:",
"以下模型不存在:":"Nenhum Modelo Tal:",
"伴奏人声分离&去混响&去回声":"Separação de acompanhamento e voz & remoção de reverberação & remoção de eco",
"使用无参考文本模式时建议使用微调的GPT,听不清参考音频说的啥(不晓得写啥)可以开。<br>开启后无视填写的参考文本。":"Ao usar o modo sem texto de referência, recomenda-se usar um GPT ajustado. Se não conseguir ouvir claramente o áudio de referência (não sabe o que escrever), você pode ativar o modo e ignorar o texto de referência fornecido.",
@ -151,6 +152,8 @@
"语音切割进程输出信息":"Informações de saída do processo de corte de voz",
"语音降噪进程输出信息":"Informações de saída do processo de redução de ruído de voz",
"请上传3~10秒内参考音频,超过会报错!":"Por favor, faça upload de um áudio de referência com duração entre 3 e 10 segundos. Áudios fora dessa faixa causarão erro!",
"请上传参考音频":"Por Favor, Carregue o Áudio de Referência",
"请填入推理文本":"Por Favor, Preencha o Texto de Inferência",
"请输入有效文本":"Por favor, insira um texto válido",
"转换":"Converter",
"输入待处理音频文件夹路径":"Caminho da pasta de arquivos de áudio a ser processados",
"伴奏人声分离&去混响&去回声":"Разделение вокала/аккомпанемента и удаление эхо",
"使用无参考文本模式时建议使用微调的GPT,听不清参考音频说的啥(不晓得写啥)可以开。<br>开启后无视填写的参考文本。":"При использовании режима без референсного текста рекомендуется использовать настроенную модель GPT. Если не удается разобрать, что говорит референсное аудио (не знаете, что писать), можете включить этот режим, и он проигнорирует введенный референсный текст.",
@ -151,6 +152,8 @@
"语音切割进程输出信息":"Информация о процессе разрезания речи",
"语音降噪进程输出信息":"Информация о процессе шумоподавления",
"请上传3~10秒内参考音频,超过会报错!":"Пожалуйста, загрузите референтное аудио длительностью от 3 до 10 секунд, иначе будет ошибка!",
"也可批量输入音频文件, 二选一, 优先读文件夹":"Ses dosyaları ayrıca toplu olarak, iki seçimle, öncelikli okuma klasörüyle içe aktarılabilir",
"人声伴奏分离批量处理, 使用UVR5模型。":"Vokal ve akor ayırma toplu işleme, UVR5 modelini kullanarak.",
"人声提取激进程度":"Vokal çıkarma agresiflik derecesi",
"以下文件或文件夹不存在:":"Böyle Bir Dosya veya Klasör Yok:",
"以下模型不存在:":"Böyle bir model yok:",
"伴奏人声分离&去混响&去回声":"Vokal/Müzik Ayrıştırma ve Yankı Giderme",
"使用无参考文本模式时建议使用微调的GPT,听不清参考音频说的啥(不晓得写啥)可以开。<br>开启后无视填写的参考文本。":"Referans metin modu olmadan kullanıldığında, referans sesi net duyulmadığında (ne yazılacağı bilinmiyorsa) açık bırakılması önerilir, bu durumda girilen referans metni göz ardı edilir.",
@ -151,6 +152,8 @@
"语音切割进程输出信息":"Ses kesim işlemi çıktı bilgisi",
"语音降噪进程输出信息":"Gürültü azaltma işlemi çıktı bilgisi",
"请上传3~10秒内参考音频,超过会报错!":"Lütfen 3~10 saniye arasında bir referans ses dosyası yükleyin, aşım durumunda hata verilecektir!",
"请上传参考音频":"Lütfen Referans Sesi Yükleyin",
"请填入推理文本":"Lütfen Hedef Metni Girin",
"请输入有效文本":"Geçerli metin girin",
"转换":"Dönüştür",
"输入待处理音频文件夹路径":"İşlenecek ses klasörünün yolunu girin:",