# 直播数字人 (Live Digital Avatar) 启动说明 ## 项目简介 **项目名称:** - 中文:直播数字人 - 英文:live-digital-avatar **项目描述:** 实时交互流式数字人系统,实现音视频同步对话,可达到商用效果。支持多种数字人模型,包括wav2lip、musetalk、Ultralight-Digital-Human等。 ## 系统要求 ### 硬件要求 - **GPU**: NVIDIA显卡,推荐RTX 3060及以上 - wav2lip256模型:RTX 3060及以上 - musetalk模型:RTX 3080Ti及以上 - **CPU**: 多核处理器,用于视频压缩处理 - **内存**: 建议16GB以上 - **存储**: 至少10GB可用空间 ### 软件要求 - **操作系统**: Ubuntu 24.04 (推荐) / Windows 10/11 - **Python**: 3.10 - **CUDA**: 12.4 (根据显卡驱动版本调整) - **PyTorch**: 2.5.0 ## 安装步骤 ### 1. 环境准备 #### 创建Python虚拟环境 ```bash # 创建conda环境 conda create -n livetalking python=3.10 conda activate livetalking ``` #### 安装PyTorch ```bash # 安装PyTorch (根据您的CUDA版本调整) # CUDA 12.4 conda install pytorch==2.5.0 torchvision==0.20.0 torchaudio==2.5.0 pytorch-cuda=12.4 -c pytorch -c nvidia # 如果CUDA版本不同,请访问 https://pytorch.org/get-started/previous-versions/ 选择对应版本 ``` #### 安装项目依赖 ```bash # 安装项目依赖包 pip install -r requirements.txt ``` ### 2. 模型下载 #### 下载预训练模型 项目需要下载预训练模型文件,您可以从以下地址下载: **夸克云盘**: https://pan.quark.cn/s/83a750323ef0 **Google Drive**: https://drive.google.com/drive/folders/1FOC_MD6wdogyyX_7V1d4NDIO7P9NlSAJ?usp=sharing #### 模型文件放置 下载完成后,请按以下步骤放置模型文件: 1. 将 `wav2lip256.pth` 复制到项目的 `models/` 目录下,并重命名为 `wav2lip.pth` 2. 将 `wav2lip256_avatar1.tar.gz` 解压后,将整个文件夹复制到项目的 `data/avatars/` 目录下 ### 3. 网络配置 **重要**: 服务端需要开放以下端口: - **TCP端口**: 8010 (Web服务) - **UDP端口**: 1-65536 (WebRTC通信) ## 启动数字人 ### 基本启动命令 ```bash # 激活环境 conda activate livetalking # 启动数字人服务 python app.py --transport webrtc --model wav2lip --avatar_id wav2lip256_avatar1 ``` ### 启动参数说明 - `--transport webrtc`: 使用WebRTC传输协议 - `--model wav2lip`: 使用wav2lip模型 - `--avatar_id wav2lip256_avatar1`: 指定数字人形象ID ### 其他启动选项 ```bash # 使用musetalk模型 python app.py --transport webrtc --model musetalk --avatar_id your_avatar_id # 使用Ultralight模型 python app.py --transport webrtc --model ultralight --avatar_id your_avatar_id # 指定端口 python app.py --transport webrtc --model wav2lip --avatar_id wav2lip256_avatar1 --port 8010 ``` ## 客户端访问 ### 方式一:浏览器访问 1. 在浏览器中打开: `http://服务器IP:8010/webrtcapi.html` 2. 点击 'start' 按钮开始播放数字人视频 3. 在文本框中输入任意文字并提交,数字人将播报该段文字 ### 方式二:客户端软件 - 下载地址: https://pan.quark.cn/s/d7192d8ac19b - 安装客户端软件进行连接 ## 快速体验 如果您想快速体验,可以使用以下云服务镜像: **UCloud镜像**: https://www.compshare.cn/images/4458094e-a43d-45fe-9b57-de79253befe4?referral_code=3XW3852OBmnD089hMMrtuU&ytag=GPU_GitHub_livetalking 使用该镜像创建实例即可直接运行成功。 ## Docker运行 如果您不想手动安装环境,可以直接使用Docker运行: ```bash docker run --gpus all -it --network=host --rm registry.cn-beijing.aliyuncs.com/codewithgpu2/lipku-metahuman-stream:2K9qaMBu8v ``` 代码位于 `/root/metahuman-stream`,先执行 `git pull` 拉取最新代码,然后按照上述步骤启动。 ## 性能参考 | 模型 | 显卡型号 | FPS | |------|----------|-----| | wav2lip256 | RTX 3060 | 60 | | musetalk | RTX 3080Ti | 45 | | wav2lip256 | RTX 3080Ti | 120 | **性能说明:** - 不说话时的并发数取决于CPU性能 - 同时说话的并发数取决于GPU性能 - 后端日志中 `inferfps` 表示显卡推理帧率,`finalfps` 表示最终推流帧率 - 两者都要在25以上才能实现实时效果 ## 常见问题 ### 1. 访问HuggingFace问题 如果访问不了huggingface,在运行前设置: ```bash export HF_ENDPOINT=https://hf-mirror.com ``` ### 2. 视频连接问题 如果遇到视频连接问题,请参考:https://mp.weixin.qq.com/s/MVUkxxhV2cgMMHalphr2cg ### 3. 安装问题 详细安装FAQ请参考:https://livetalking-doc.readthedocs.io/zh-cn/latest/faq.html ## 技术支持 - **知识星球**: https://t.zsxq.com/7NMyO - **微信公众号**: 数字人技术 - **项目地址**: https://github.com/lipku/LiveTalking - **国内镜像**: https://gitee.com/lipku/LiveTalking ## 声明 基于本项目开发并发布在B站、视频号、抖音等网站上的视频需带上LiveTalking水印和标识,如需去除请联系作者备案授权。 --- 如果本项目对您有帮助,欢迎给项目点个star,也欢迎感兴趣的朋友一起来完善该项目。