live-digital-avatar-livetal.../README.md

# 直播数字人 (Live Digital Avatar) 启动说明

## 项目简介

**项目名称：**
- 中文：直播数字人
- 英文：live-digital-avatar

**项目描述：** 实时交互流式数字人系统，实现音视频同步对话，可达到商用效果。支持多种数字人模型，包括wav2lip、musetalk、Ultralight-Digital-Human等。

## 系统要求

### 硬件要求
- **GPU**: NVIDIA显卡，推荐RTX 3060及以上
  - wav2lip256模型：RTX 3060及以上
  - musetalk模型：RTX 3080Ti及以上
- **CPU**: 多核处理器，用于视频压缩处理
- **内存**: 建议16GB以上
- **存储**: 至少10GB可用空间

### 软件要求
- **操作系统**: Ubuntu 24.04 (推荐) / Windows 10/11
- **Python**: 3.10
- **CUDA**: 12.4 (根据显卡驱动版本调整)
- **PyTorch**: 2.5.0

## 安装步骤

### 1. 环境准备

#### 创建Python虚拟环境
```bash
# 创建conda环境
conda create -n livetalking python=3.10
conda activate livetalking
```

#### 安装PyTorch
```bash
# 安装PyTorch (根据您的CUDA版本调整)
# CUDA 12.4
conda install pytorch==2.5.0 torchvision==0.20.0 torchaudio==2.5.0 pytorch-cuda=12.4 -c pytorch -c nvidia

# 如果CUDA版本不同，请访问 https://pytorch.org/get-started/previous-versions/ 选择对应版本
```

#### 安装项目依赖
```bash
# 安装项目依赖包
pip install -r requirements.txt
```

### 2. 模型下载

#### 下载预训练模型
项目需要下载预训练模型文件，您可以从以下地址下载：

**夸克云盘**: https://pan.quark.cn/s/83a750323ef0
**Google Drive**: https://drive.google.com/drive/folders/1FOC_MD6wdogyyX_7V1d4NDIO7P9NlSAJ?usp=sharing

#### 模型文件放置
下载完成后，请按以下步骤放置模型文件：

1. 将 `wav2lip256.pth` 复制到项目的 `models/` 目录下，并重命名为 `wav2lip.pth`
2. 将 `wav2lip256_avatar1.tar.gz` 解压后，将整个文件夹复制到项目的 `data/avatars/` 目录下

### 3. 网络配置

**重要**: 服务端需要开放以下端口：
- **TCP端口**: 8010 (Web服务)
- **UDP端口**: 1-65536 (WebRTC通信)

## 启动数字人

### 基本启动命令

```bash
# 激活环境
conda activate livetalking

# 启动数字人服务
python app.py --transport webrtc --model wav2lip --avatar_id wav2lip256_avatar1
```

### 启动参数说明

- `--transport webrtc`: 使用WebRTC传输协议
- `--model wav2lip`: 使用wav2lip模型
- `--avatar_id wav2lip256_avatar1`: 指定数字人形象ID

### 其他启动选项

```bash
# 使用musetalk模型
python app.py --transport webrtc --model musetalk --avatar_id your_avatar_id

# 使用Ultralight模型
python app.py --transport webrtc --model ultralight --avatar_id your_avatar_id

# 指定端口
python app.py --transport webrtc --model wav2lip --avatar_id wav2lip256_avatar1 --port 8010
```

## 客户端访问

### 方式一：浏览器访问
1. 在浏览器中打开: `http://服务器IP:8010/webrtcapi.html`
2. 点击 'start' 按钮开始播放数字人视频
3. 在文本框中输入任意文字并提交，数字人将播报该段文字

### 方式二：客户端软件
- 下载地址: https://pan.quark.cn/s/d7192d8ac19b
- 安装客户端软件进行连接

## 快速体验

如果您想快速体验，可以使用以下云服务镜像：

**UCloud镜像**: https://www.compshare.cn/images/4458094e-a43d-45fe-9b57-de79253befe4?referral_code=3XW3852OBmnD089hMMrtuU&ytag=GPU_GitHub_livetalking

使用该镜像创建实例即可直接运行成功。

## Docker运行

如果您不想手动安装环境，可以直接使用Docker运行：

```bash
docker run --gpus all -it --network=host --rm registry.cn-beijing.aliyuncs.com/codewithgpu2/lipku-metahuman-stream:2K9qaMBu8v
```

代码位于 `/root/metahuman-stream`，先执行 `git pull` 拉取最新代码，然后按照上述步骤启动。

## 性能参考

| 模型 | 显卡型号 | FPS |
|------|----------|-----|
| wav2lip256 | RTX 3060 | 60 |
| musetalk | RTX 3080Ti | 45 |
| wav2lip256 | RTX 3080Ti | 120 |

**性能说明：**
- 不说话时的并发数取决于CPU性能
- 同时说话的并发数取决于GPU性能
- 后端日志中 `inferfps` 表示显卡推理帧率，`finalfps` 表示最终推流帧率
- 两者都要在25以上才能实现实时效果

## 常见问题

### 1. 访问HuggingFace问题
如果访问不了huggingface，在运行前设置：
```bash
export HF_ENDPOINT=https://hf-mirror.com
```

### 2. 视频连接问题
如果遇到视频连接问题，请参考：https://mp.weixin.qq.com/s/MVUkxxhV2cgMMHalphr2cg

### 3. 安装问题
详细安装FAQ请参考：https://livetalking-doc.readthedocs.io/zh-cn/latest/faq.html

## 技术支持

- **知识星球**: https://t.zsxq.com/7NMyO
- **微信公众号**: 数字人技术
- **项目地址**: https://github.com/lipku/LiveTalking
- **国内镜像**: https://gitee.com/lipku/LiveTalking

## 声明

基于本项目开发并发布在B站、视频号、抖音等网站上的视频需带上LiveTalking水印和标识，如需去除请联系作者备案授权。

---

如果本项目对您有帮助，欢迎给项目点个star，也欢迎感兴趣的朋友一起来完善该项目。