# SadTalker with GFPGAN 图像语音合成 SadTalker with GFPGAN 是一个图像和语音合成项目,它结合了 SadTalker 模型和 GFPGAN 图像增强技术,使用户能够通过图像和语音生成合成视频。 ## 安装步骤 1. 下载 [Anaconda](https://www.anaconda.com/products/distribution) 并安装。 2. 设置 pip 源: ```bash pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple ``` 3. 进入 SadTalker 目录: ```bash cd path/to/SadTalker ``` 4. 创建并激活虚拟环境: ```bash conda create -n sadtalker python=3.8 conda activate sadtalker ``` 5. 安装 PyTorch 和其他依赖: ```bash pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 conda install ffmpeg pip install -r requirements.txt ``` ## 生成合成视频 执行以下命令生成合成视频: ```bash # 确保将 path/to/your/audio.wav 替换为您的语音文件路径,path/to/your/image.png 替换为您的图像文件路径,path/to/output 替换为您的输出目录。 python inference.py --driven_audio path/to/your/audio.wav --source_image path/to/your/image.png --result_dir path/to/output --still --preprocess full --enhancer gfpgan ``` | 名称 | 配置 | 默认值 | 说明 | |:-------------------|:----------------------|:-------------|:-----------------------------------------| | 增强模式 | `--enhancer` | None | 使用 `gfpgan` 或 `RestoreFormer` 通过面部修复网络增强生成的面部 | | 背景增强模式 | `--background_enhancer` | None | 使用 `realesrgan` 增强整个视频。 | | 静态模式 | ` --still` | False | 使用与原始图像相同的姿势参数,减少头部运动。 | | 表达模式 | `--expression_scale` | 1.0 | 较大的值将增强表情动作。 | | 保存路径 | `--result_dir` | `./results` | 文件将保存在新的位置。 | | 预处理模式 | `--preprocess` | `crop` | 在裁剪的输入图像上运行并生成结果。其他选择:`resize`,图像将被调整为特定分辨率。`full`,运行完整图像动画,与 `--still` 一起使用以获得更好的结果。| | 参考模式 (眼部) | `--ref_eyeblink` | None | 视频路径,我们从该参考视频中借用眨眼动作以提供更自然的眉毛运动。| | 参考模式 (姿势) | `--ref_pose` | None | 视频路径,我们从该头部参考视频中借用姿势。| | 3D 模式 | `--face3dvis` | False | 需要额外的安装。有关生成3D人脸的更多详细信息,请参见 [这里](docs/face3d.md)。| | 自由视角模式 | `--input_yaw`,
`--input_pitch`,
`--input_roll` | None | 从单个图像生成新视角或自由视角的4D对话头。有关更多详细信息,请参见 [这里](https://github.com/Winfredy/SadTalker#generating-4d-free-view-talking-examples-from-audio-and-a-single-image)。|