You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

174 lines
5.0 KiB
Markdown

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

# 直播数字人 (Live Digital Avatar) 启动说明
## 项目简介
**项目名称:**
- 中文:直播数字人
- 英文live-digital-avatar
**项目描述:** 实时交互流式数字人系统实现音视频同步对话可达到商用效果。支持多种数字人模型包括wav2lip、musetalk、Ultralight-Digital-Human等。
## 系统要求
### 硬件要求
- **GPU**: NVIDIA显卡推荐RTX 3060及以上
- wav2lip256模型RTX 3060及以上
- musetalk模型RTX 3080Ti及以上
- **CPU**: 多核处理器,用于视频压缩处理
- **内存**: 建议16GB以上
- **存储**: 至少10GB可用空间
### 软件要求
- **操作系统**: Ubuntu 24.04 (推荐) / Windows 10/11
- **Python**: 3.10
- **CUDA**: 12.4 (根据显卡驱动版本调整)
- **PyTorch**: 2.5.0
## 安装步骤
### 1. 环境准备
#### 创建Python虚拟环境
```bash
# 创建conda环境
conda create -n livetalking python=3.10
conda activate livetalking
```
#### 安装PyTorch
```bash
# 安装PyTorch (根据您的CUDA版本调整)
# CUDA 12.4
conda install pytorch==2.5.0 torchvision==0.20.0 torchaudio==2.5.0 pytorch-cuda=12.4 -c pytorch -c nvidia
# 如果CUDA版本不同请访问 https://pytorch.org/get-started/previous-versions/ 选择对应版本
```
#### 安装项目依赖
```bash
# 安装项目依赖包
pip install -r requirements.txt
```
### 2. 模型下载
#### 下载预训练模型
项目需要下载预训练模型文件,您可以从以下地址下载:
**夸克云盘**: https://pan.quark.cn/s/83a750323ef0
**Google Drive**: https://drive.google.com/drive/folders/1FOC_MD6wdogyyX_7V1d4NDIO7P9NlSAJ?usp=sharing
#### 模型文件放置
下载完成后,请按以下步骤放置模型文件:
1.`wav2lip256.pth` 复制到项目的 `models/` 目录下,并重命名为 `wav2lip.pth`
2.`wav2lip256_avatar1.tar.gz` 解压后,将整个文件夹复制到项目的 `data/avatars/` 目录下
### 3. 网络配置
**重要**: 服务端需要开放以下端口:
- **TCP端口**: 8010 (Web服务)
- **UDP端口**: 1-65536 (WebRTC通信)
## 启动数字人
### 基本启动命令
```bash
# 激活环境
conda activate livetalking
# 启动数字人服务
python app.py --transport webrtc --model wav2lip --avatar_id wav2lip256_avatar1
```
### 启动参数说明
- `--transport webrtc`: 使用WebRTC传输协议
- `--model wav2lip`: 使用wav2lip模型
- `--avatar_id wav2lip256_avatar1`: 指定数字人形象ID
### 其他启动选项
```bash
# 使用musetalk模型
python app.py --transport webrtc --model musetalk --avatar_id your_avatar_id
# 使用Ultralight模型
python app.py --transport webrtc --model ultralight --avatar_id your_avatar_id
# 指定端口
python app.py --transport webrtc --model wav2lip --avatar_id wav2lip256_avatar1 --port 8010
```
## 客户端访问
### 方式一:浏览器访问
1. 在浏览器中打开: `http://服务器IP:8010/webrtcapi.html`
2. 点击 'start' 按钮开始播放数字人视频
3. 在文本框中输入任意文字并提交,数字人将播报该段文字
### 方式二:客户端软件
- 下载地址: https://pan.quark.cn/s/d7192d8ac19b
- 安装客户端软件进行连接
## 快速体验
如果您想快速体验,可以使用以下云服务镜像:
**UCloud镜像**: https://www.compshare.cn/images/4458094e-a43d-45fe-9b57-de79253befe4?referral_code=3XW3852OBmnD089hMMrtuU&ytag=GPU_GitHub_livetalking
使用该镜像创建实例即可直接运行成功。
## Docker运行
如果您不想手动安装环境可以直接使用Docker运行
```bash
docker run --gpus all -it --network=host --rm registry.cn-beijing.aliyuncs.com/codewithgpu2/lipku-metahuman-stream:2K9qaMBu8v
```
代码位于 `/root/metahuman-stream`,先执行 `git pull` 拉取最新代码,然后按照上述步骤启动。
## 性能参考
| 模型 | 显卡型号 | FPS |
|------|----------|-----|
| wav2lip256 | RTX 3060 | 60 |
| musetalk | RTX 3080Ti | 45 |
| wav2lip256 | RTX 3080Ti | 120 |
**性能说明:**
- 不说话时的并发数取决于CPU性能
- 同时说话的并发数取决于GPU性能
- 后端日志中 `inferfps` 表示显卡推理帧率,`finalfps` 表示最终推流帧率
- 两者都要在25以上才能实现实时效果
## 常见问题
### 1. 访问HuggingFace问题
如果访问不了huggingface在运行前设置
```bash
export HF_ENDPOINT=https://hf-mirror.com
```
### 2. 视频连接问题
如果遇到视频连接问题请参考https://mp.weixin.qq.com/s/MVUkxxhV2cgMMHalphr2cg
### 3. 安装问题
详细安装FAQ请参考https://livetalking-doc.readthedocs.io/zh-cn/latest/faq.html
## 技术支持
- **知识星球**: https://t.zsxq.com/7NMyO
- **微信公众号**: 数字人技术
- **项目地址**: https://github.com/lipku/LiveTalking
- **国内镜像**: https://gitee.com/lipku/LiveTalking
## 声明
基于本项目开发并发布在B站、视频号、抖音等网站上的视频需带上LiveTalking水印和标识如需去除请联系作者备案授权。
---
如果本项目对您有帮助欢迎给项目点个star也欢迎感兴趣的朋友一起来完善该项目。