让自己生成的虚拟人图片说话
本人笔记本配置对于跑这个来说不高,跑起来有点吃力(显卡3060 6G显存,16G运行内存)
使用的clip模型:t5xxl_fp8_e4m3fn.safetensors
和clip_l.safetensors
使用的Flux模型:flux1-schnell.safetensors
Flux 模型总共有3个,分别是:Flux Pro
、Flux Dev
、Flux Schnell
[pro]
是最顶级的模型,但是只能通过 API 调用;[dev]
是由[pro]
提炼,开源但非商用,质量和效果与[pro]
类似;[schnell]
是经过蒸馏的 4 步模型,速度比[dev]
快 10 倍,Apache 2 开源许可。
-
下载最新版 ComfyUI: 官方下载 ,下载后解压出来待用
-
设置中文语言:点击下载,中文语言包,将 ZIP 包解压到 ComfyUI\custom_nodes 目录中(英语好的可用跳过这一步)
-
下载 Flux 模型:FLUX 模型有四个可选,FLUX.1 [dev] 、FLUX.1 [dev] fp8、FLUX.1 [schnell]、FLUX.1 [schnell] fp8;
-
FLUX.1 [dev]:官方满配版,最低显存要求24G;点击下载
-
FLUX.1 [dev] fp8:大佬优化[dev]后版本,最低12G显存可跑;点击下载
-
FLUX.1 [schnell]:4步蒸馏模型,大多数显卡可跑。点击下载
-
FLUX.1 [schnell] fp8:优化版本,适应更低的显卡配置点击下载
不管你下载上面的哪个模型,都存放在这个:ComfyUI/models/unet/ 目录下
4.下载 CLIP 模型:需下载 t5xxl_fp16.safetensors 或 t5xxl_fp8_e4m3fn.safetensors (建议选择fp8 版本,如果你显存超过 32G 可选择 fp16 版本)
还有 clip_l.safetensors 放到 ComfyUI/models/clip/ 目录中:点击前往
5.下载 VAE 模型:点击下载 存放至 ComfyUI/models/vae/ 目录
6.下载Lora 真人模型 点击下载,放到ComfyUI/models/loras目录
7.下载工作流 点击下载,使用的时候根据需要的版本选择工作流,打开了ComfyUI把工作流拖进去就可以使用
全部模型下载好,放到指定目录就可以在ComfyUI的文件根目录下运行cpu或者gpu的bat脚本来打开ComfyUI
打开之后把对应版本的工作流拖到ComfyUI的网页里面就会自动加载工作流
模型和我下载的一样的,这些选项和参数都和我一样就行
这里可以改生成图片的分辨率(也就是改宽度和高度)和一次要生成多少张图片(也就是改批次大小)
建议显存小于8G的分辨率不要设太高了
然后我们修改提示词让电脑给我们生成我们想要的图片就行了(提示词最好用英语,英语不好,中文翻译一下就好了)
这里我的提示词翻译过来就是:这是一张高分辨率的照片,一个时尚的美女站在一个安静的图书馆里,她的皮肤晶莹剔透,匀称的脸,她的身材穿着柔软的针织毛衣和飘逸的裙子,她仔细阅读书架时的表情若有感触,她的姿势优雅而镇定
英语:This is a high-resolution photograph, a fashionable beauty with clear, dewy skin and a symmetrical face stands in a tranquil library, her figure adorned in a soft, cable-knit sweater and a flowing skirt, her expression thoughtful as she peruses the shelves, her posture elegant and poised,Young Asian woman.
所有的设置都完成之后,点击右上角的【添加提示词队列
】就开始文生图了,具体要跑多久出图主要还是看你的显卡和内存给不给力了
跑完之后右键保存图像就好了
看CMD的控制台显示我用我的笔记本生成这张分辨率为1024×1536的图片用了1552秒,大概25.8分钟将近26分钟(跑的确实很慢啊😂)
windows版本 一键包下载
进入项目作者github发行页下载v1.0完整包下载(1.7G含模型)
和最新的升级补丁包
下载完后解压这2个压缩包,然后把解压出来的补丁包里面的文件复制到v1.0完整包解压出来的文件夹根目录下面进行全部替换
默认将在第一次运行时自动下载模型,如果网络问题下载失败,请手动下载
GitHub 下载地址: https://github.com/jianchang512/ChatTTS-ui/releases/download/v1.0/all-models.7z
百度网盘下载: https://pan.baidu.com/s/1yGDZM9YNN7kW9e7SFo8lLw?pwd=ct5x
下载后解压后,会看到asset文件夹,该文件夹内有多个pt文件,将所有pt文件复制到本目录下,然后重启软件
最后点击根目录下的app.exe
运行程序
在文本框输入想说的话和选择好想要的音色就行
ChatTTS可以通过设置提示词:口语化、 笑声、停顿,合理使用让合成的语音更加逼真自然!
口语化 :[oral]
笑声:[laugh]
停顿:[break]
使用的时候建议调整参数temperature
为最低,这是生成音频的底噪,如果调太高背景音会很吵,很杂和把跳过refine text
的对勾去掉,其他参数看自己进行调整(一般除了音色相关
和Prompt
之外都保持默认就好了)
需要git,科学上网, python3.8+ 环境
- 下载ffmpeg
打开[ffmpeg官网](Download FFmpeg),然后点击Windows
,选gyan.dev
2.下载Windows构建全版本的FFmpeg
-
解压,重命名解压后文件夹为FFmpeg
p.s. 解压需要安装7zip,好用的轻量级压缩工具。
- 配置PATH环境变量,添加完后记得点确定
- 检查是否安装成功
打开【命令提示符】,输入ffmpeg,如图所示
如果电脑没有git下载去 [官网下载](Git - Downloading Package) windows版的git,同样的设置系统环境变量之后在cmd里面进入你需要下载到目录里面再运行下面命令git仓库文件
git clone https://github.com/Winfredy/SadTalker.git
参照《官方文档》有三种方式,其中百度网盘是不用翻墙的,模型文件涉及以下两个文件夹:
- checkpoints, 提取码: sadt
- gfpgan, 提取码: sadt
把下载好的模型文件放到checkpoints和weights下面
第一次运行需要下载依赖,会很慢
建议去自己下载好它需要的pytorch版本,手动安装,点我下载
cmd进入SadTalker\venv\Scripts
目录,然后pip install torch-1.12.1+cu113-cp310-cp310-win_amd64.whl
之后应该会有一个gradio
库报错,因为默认安装最新版,这个错误是由于Gradio
库的版本问题导致的。gr.Row().style(equal_height=False)
这种写法在较新的Gradio
版本中可能不再适用
我们安装指定版本就行pip install gradio==3.46.1
默认地址为 127.0.0.1:7860,拖入图像和语音,点击Generate即可进行合成(注:SadTalker/example
下有样例可以拖进来试)
现在所有的项目都本地部署完成了,现在把我之前在ComfyUI
生成的图片和ChatTTs
生成的音频在SadTalker
上传等待一会就会生成图片说话的视频了,不过我生成的音频没用女声,影响不大,后面用ChatTTs
生成音频的时候记得换需要的音色就行