LiveTalking windows 11 环境安装部署-拓冰网站优化

软件安装清单按顺序安装以下软件NVIDIA 显卡驱动前往 NVIDIA 官网下载最新驱动安装后在命令行输入nvidia-smi确认 CUDA Version 显示正常Git前往 git-scm.com 下载安装本地已有Anaconda / Miniconda前往 anaconda.com 下载安装用于管理 Python 虚拟环境国内地址Index of /anaconda/archive/ | 清华大学开源软件镜像站 | Tsinghua Open Source MirrorFFmpeg用于音频/视频处理下载后将bin目录加入系统环境变量 PATHFFmpeg是一个开源的音视频处理工具套件广泛用于视频转码、剪辑、合并、流媒体推流等任务。对于Windows用户推荐直接下载编译好的可执行文件Builds无需自行编译。以下是详细的下载安装步骤访问官网下载页面打开浏览器访问 FFmpeg 官方下载地址https://ffmpeg.org/download.html选择 Windows 版本在页面中找到 “Windows” 部分点击 “Windows builds from gyan.dev” 或 “BtbN” 链接推荐使用 gyan.dev更新更频繁。下载压缩包在 gyan.dev 页面中找到 “ffmpeg-release-full.7z” 文件并下载。该版本包含所有常用编解码器适合大多数用户。解压到指定目录将下载的 .7z 文件解压到一个不含中文和空格的路径例如C:\ffmpeg配置环境变量右键“此电脑” → “属性” → “高级系统设置” → “环境变量”。在“系统变量”中找到 “Path”点击“编辑” → “新建”添加路径C:\ffmpeg\bin点击“确定”保存所有设置。验证安装打开命令提示符CMD或 Anaconda Prompt输入ffmpeg -version如果输出版本信息说明安装成功。wget -c https://www.gyan.dev/ffmpeg/builds/ffmpeg-release-full.7z-------------------------------------------------------------------------------第一步克隆项目代码打开Anaconda Prompt以管理员身份运行执行# 克隆项目国内网络慢可用 Gitee 镜像 git clone https://github.com/lipku/LiveTalking.git # 或使用国内镜像 # git clone https://gitee.com/lipku/LiveTalking.git # 进入项目目录 cd LiveTalking 建议项目路径中不要包含中文避免后续报错。cd /d D:\meta_human\LiveTalkingconda --version第二步创建 Python 虚拟环境# 创建 Python 3.12 的虚拟环境官方推荐版本 conda create -n livetalking python3.12 # 激活环境 conda activate livetalking第三步安装 PyTorchCUDA 版本匹配先在命令行运行nvidia-smi查看右上角的CUDA Version这是驱动支持的最高 CUDA 版本然后选择对应的 PyTorch# CUDA 12.x 版本推荐适用于大多数 RTX 30 系显卡 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121⚠️ Windows 上不要硬装 CUDA 11.3建议用 CUDA 12.x 对应 PyTorch否则极易失败。清华源pip install torch2.9.1 torchvision0.24.1 torchaudio2.9.1 --index-url https://pypi.tuna.tsinghua.edu.cn/simple第四步安装项目依赖安装依赖设置国内镜像源pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simplepip install -r requirements.txt第五步下载模型文件这是最关键的一步需要下载两类文件网盘地址夸克云盘https://pan.quark.cn/s/83a750323ef0将wav2lip256.pth拷贝到项目的models/目录下重命名为wav2lip.pth将wav2lip256_avatar1.tar.gz解压后整个文件夹拷贝到data/avatars/目录下启动服务python app.py --transport webrtc --model wav2lip --avatar_id wav2lip256_avatar12.3 客户端接入方式说明浏览器打开http://serverip:8010/index.html点击开始连接播放数字人视频在文本框输入文字提交即可API 调用参考 API 文档通过 HTTP 接口驱动桌面客户端下载地址: https://pan.quark.cn/s/d7192d8ac19b参考LiveTalking: 实时交互数字人python app.py --transport webrtc --model wav2lip --avatar_id wav2lip256_avatar1-------------------------------------------------------------5.1 数字人模型Wav2Lip由于你是 RTX 3050推荐使用wav2lip256模型显存占用最小从项目 README 或官方文档中提供的网盘链接下载wav2lip256.pth重命名为wav2lip.pth放入项目的models/目录下5.2 数字人形象素材下载官方提供的wav2lip256_avatar1.tar.gz解压到项目的data/avatars/目录下如果想自定义数字人形象可以用自己的闭嘴不说话的正面视频生成cd wav2lip python genavatar.py --video_path 你的视频.mp4 --img_size 256 --avatar_id wav2lip256_myavatar生成后将results/avatars下的文件复制到data/avatars/目录。5.3 国内下载加速如果 HuggingFace 模型下载慢设置镜像# Windows CMD 环境 set HF_ENDPOINThttps://hf-mirror.com # Windows PowerShell 环境 $env:HF_ENDPOINThttps://hf-mirror.com第六步配置 TTS文本转语音LiveTalking 2.0 支持多种 TTS 引擎按复杂度排列表格TTS 引擎特点是否需额外部署EdgeTTS默认免费、速度快、无需 GPU❌ 开箱即用GPT-SoVITS音色克隆、质量高✅ 需单独部署CosyVoice阿里开源、中文效果好✅ 需单独部署QwenTTSv2.0 新增大模型驱动、情感丰富✅ 需单独部署新手建议先用默认的EdgeTTS跑通流程后续再升级音色。第七步启动服务方式一WebRTC 模式浏览器交互推荐新手python app.py --transport webrtc --model wav2lip --avatar_id wav2lip256_avatar1启动后用浏览器打开http://localhost:8010/webrtcapi.html⚠️ 需要确保防火墙放行TCP 8010端口和UDP 端口。方式二RTMP 推流模式用于直播平台先启动 SRS 流媒体服务器通过 Dockerdocker run --rm -it -p 1935:1935 -p 1985:1985 -p 8080:8080 \ registry.cn-hangzhou.aliyuncs.com/ossrs/srs:5然后启动数字人服务Anaconda Prompt(右键管理员运行)conda activate livetalkingcd /d D:\meta_human\LiveTalkingset PYTHONIOENCODINGutf-8python app.py --transport webrtc --model wav2lip --avatar_id wav2lip256_avatar1http://127.0.0.1:8010/index.html生成的时候经过测试是可以使用的。python app.py --transport rtmp --model wav2lip --avatar_id wav2lip256_avatar1 报错了python app.py --transport rtmp --model wav2lip --avatar_id wav2lip256_avatar1第八步验证运行启动成功后终端会输出推理帧率信息。关注两个指标inferfps推理帧率应 ≥ 25finalfps最终帧率应 ≥ 25如果帧率过低可以尝试降低分辨率wav2lip 固定 256×256已是最小关闭不必要的后台程序释放显存确认使用的是 GPU 推理而非 CPU 针对 RTX 3050 的优化建议表格优化项操作模型选择只用wav2lip256不要尝试 musetalk/ernerfTTS 引擎用EdgeTTS零 GPU 占用分辨率保持 256×256wav2lip 默认并发数只开1 路不要尝试多路并发显存监控运行nvidia-smi实时监控确保显存不溢出

相关新闻

Mate Engine虚拟角色引擎：模块化VRM桌面伴侣的技术实现方案

Mate Engine虚拟角色引擎：模块化VRM桌面伴侣的技术实现方案【免费下载链接】Mate-Engine A free Desktop Mate alternative with a lightweight interface and custom VRM support, though with more features. 项目地址: https://gitcode.com/gh_mirrors/ma/Mat…

2026/6/30 23:36:43阅读更多 →

Kafka-UI安全加固：如何解决生产环境权限失控问题

Kafka-UI安全加固：如何解决生产环境权限失控问题【免费下载链接】kafka-ui Open-Source Web UI for Apache Kafka Management 项目地址: https://gitcode.com/GitHub_Trending/ka/kafka-ui 在企业级Kafka集群管理中，权限失控是导致数据泄露和运维…

2026/6/30 23:36:43阅读更多 →

python-122-节点可视化之基于AntVx6绘制节点

文章目录 1 html文件 2 基于python生成html 1 html文件 <!DOCTYPE html> <html lang="zh-CN"> <head><meta charset="UTF-8"><title

2026/6/30 23:36:43阅读更多 →

iOS应用砸壳实战指南：从原理到工具选型与环境配置

1. 项目概述：为什么我们需要“砸壳”？在iOS开发和安全研究领域，“砸壳”是一个绕不开的核心技能。简单来说，iOS App Store上架的应用，都会被苹果加上一层“保护壳”，这层壳就是FairPlay DRM加密&#xff0c…

2026/7/1 0:51:50阅读更多 →

AI视频剪辑技术解析：从特征提取到故事构建的自动化流程

如果你是一名视频创作者，或者哪怕只是偶尔需要处理一些手机拍摄的素材，下面这个场景你一定不陌生：手机相册里塞满了上百个G的视频片段，从孩子的生日派对、周末的短途旅行，到产品的开箱评测、活动的花絮记录。每次想剪出…

2026/7/1 0:51:50阅读更多 →

物理信息神经网络PINNs在布洛赫-托雷(Bloch-Torrey)方程上的应用求解【torch案例】（Python代码实现）

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。 &#x1f381…

2026/7/1 0:51:50阅读更多 →

基于YOLOv8的铁轨障碍物检测系统：从数据准备到边缘部署全流程实践

在实际铁路巡检场景中，传统的人工巡检方式不仅效率低下、成本高昂，还难以应对突发障碍物带来的安全风险。随着深度学习技术的成熟，基于视觉的目标检测系统为自动化、智能化的铁轨巡检提供了可行的技术路径。YOLOv8作为当前目标检测领域的高效…

2026/7/1 0:51:50阅读更多 →

Dify实战指南：2小时构建AI Agent与企业级自动化工作流

最近在尝试将AI能力集成到业务系统时，发现市面上的方案要么过于复杂，要么定制化程度低，难以快速落地。特别是对于想快速构建AI应用、打造智能工作流的开发者而言，从零开始学习大模型API、设计Agent逻辑、管理上下文，每…

2026/7/1 0:51:50阅读更多 →

3步解决抖音评论采集难题：从手动复制到自动分析的高效方案

3步解决抖音评论采集难题：从手动复制到自动分析的高效方案【免费下载链接】TikTokCommentScraper 项目地址: https://gitcode.com/gh_mirrors/ti/TikTokCommentScraper 你是否曾经为了收集抖音视频评论而花费数小时手动复制粘贴？作为一个内容创…

2026/7/1 0:46:49阅读更多 →