You cannot select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
3.2 KiB
3.2 KiB
SadTalker with GFPGAN 图像语音合成
SadTalker with GFPGAN 是一个图像和语音合成项目,它结合了 SadTalker 模型和 GFPGAN 图像增强技术,使用户能够通过图像和语音生成合成视频。
安装步骤
-
下载 Anaconda 并安装。
-
设置 pip 源:
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
-
进入 SadTalker 目录:
cd path/to/SadTalker
-
创建并激活虚拟环境:
conda create -n sadtalker python=3.8 conda activate sadtalker
-
安装 PyTorch 和其他依赖:
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 conda install ffmpeg pip install -r requirements.txt
生成合成视频
执行以下命令生成合成视频:
# 确保将 path/to/your/audio.wav 替换为您的语音文件路径,path/to/your/image.png 替换为您的图像文件路径,path/to/output 替换为您的输出目录。
python inference.py --driven_audio path/to/your/audio.wav --source_image path/to/your/image.png --result_dir path/to/output --still --preprocess full --enhancer gfpgan
名称 | 配置 | 默认值 | 说明 |
---|---|---|---|
增强模式 | --enhancer |
None | 使用 gfpgan 或 RestoreFormer 通过面部修复网络增强生成的面部 |
背景增强模式 | --background_enhancer |
None | 使用 realesrgan 增强整个视频。 |
静态模式 | --still |
False | 使用与原始图像相同的姿势参数,减少头部运动。 |
表达模式 | --expression_scale |
1.0 | 较大的值将增强表情动作。 |
保存路径 | --result_dir |
./results |
文件将保存在新的位置。 |
预处理模式 | --preprocess |
crop |
在裁剪的输入图像上运行并生成结果。其他选择:resize ,图像将被调整为特定分辨率。full ,运行完整图像动画,与 --still 一起使用以获得更好的结果。 |
参考模式 (眼部) | --ref_eyeblink |
None | 视频路径,我们从该参考视频中借用眨眼动作以提供更自然的眉毛运动。 |
参考模式 (姿势) | --ref_pose |
None | 视频路径,我们从该头部参考视频中借用姿势。 |
3D 模式 | --face3dvis |
False | 需要额外的安装。有关生成3D人脸的更多详细信息,请参见 这里。 |
自由视角模式 | --input_yaw ,--input_pitch ,--input_roll |
None | 从单个图像生成新视角或自由视角的4D对话头。有关更多详细信息,请参见 这里。 |