|
10 | 10 | 来至Microsoft的adapter,高效率微调
|
11 | 11 | ```
|
12 | 12 |
|
| 13 | +基于大量数据,从零开始训练模型,使用分支:[lora-svc-for-pretrain](https://github.com/PlayVoice/lora-svc/tree/lora-svc-for-pretrain) |
| 14 | + |
13 | 15 | 下面是基于预训练模型定制专有音色
|
14 | 16 |
|
15 | 17 | ## 训练
|
|
39 | 41 |
|
40 | 42 | 生成 lora_speaker.npy 和 lora_pitch_statics.npy 两个文件
|
41 | 43 |
|
42 |
| -- 6 从release页面下载预训练模型maxgan_pretrain,放到model_pretrain文件夹中,预训练模型中包含了生成器和判别器 |
| 44 | +- 6 从release页面下载预训练模型**maxgan_pretrain_5L.pth**,放到model_pretrain文件夹中,预训练模型中包含了生成器和判别器 |
43 | 45 |
|
44 |
| - > python svc_trainer.py -c config/maxgan.yaml -n lora -p model_pretrain/maxgan_pretrain.pth |
| 46 | + > python svc_trainer.py -c config/maxgan.yaml -n lora -p model_pretrain/maxgan_pretrain_5L.pth |
45 | 47 |
|
46 | 48 |
|
47 | 49 | 你的文件目录应该长这个样子~~~
|
@@ -77,7 +79,7 @@ https://user-images.githubusercontent.com/16432329/228889388-d7658930-6187-48a8-
|
77 | 79 |
|
78 | 80 | > python svc_inference_export.py --config config/maxgan.yaml --checkpoint_path chkpt/lora/lora_0090.pt
|
79 | 81 |
|
80 |
| -导出的模型在当前文件夹maxgan_g.pth,文件大小为31.6M |
| 82 | +导出的模型在当前文件夹maxgan_g.pth,文件大小为**54.3M** |
81 | 83 |
|
82 | 84 | > python svc_inference.py --config config/maxgan.yaml --model maxgan_g.pth --spk ./data_svc/**lora_speaker.npy** --wave test.wav
|
83 | 85 |
|
@@ -110,39 +112,6 @@ https://user-images.githubusercontent.com/16432329/228889388-d7658930-6187-48a8-
|
110 | 112 |
|
111 | 113 | 在path\to\output\wavs生成增强后的文件
|
112 | 114 |
|
113 |
| -## 更好的音质 |
114 |
| -为了训练更高的音质,需要使用分支[maxgan_v1_pretrain](https://github.com/PlayVoice/lora-svc/tree/maxgan_v1_pretrain),需要使用大量语料,重新训练预训练模型 |
115 |
| - |
116 |
| -**更高的音质=更深的网络层+更多的通道数+更高的采样率** |
117 |
| - |
118 |
| -下面是一组 16K 采样率、160 hop的更大模型的一组参数示例: |
119 |
| - |
120 |
| -``` |
121 |
| -gen: |
122 |
| - upsample_rates: [5,4,2,2,2] |
123 |
| - upsample_kernel_sizes: [15,12,4,4,4] |
124 |
| - upsample_initial_channel: 512 |
125 |
| - resblock_kernel_sizes: [3,7,11] |
126 |
| - resblock_dilation_sizes: [[1,3,5], [1,3,5], [1,3,5]] |
127 |
| -``` |
128 |
| - |
129 |
| -分支代码有差异,根据实际需要选择合理的代码分支。 |
130 |
| - |
131 |
| -## 音色融合 |
132 |
| -天生具备~~~,demo稍等~~~ |
133 |
| - |
134 |
| -## 流式推理 |
135 |
| -whisper不支持 |
136 |
| - |
137 |
| -## 降噪能力 |
138 |
| -具备自动降噪、一定语音修复能力的高维模型~~~全速训练中 |
139 |
| - |
140 |
| -## 最初的梦想,歌声转换可调校 |
141 |
| - |
142 |
| - |
143 |
| -## 最初的梦想,发音人插件化 |
144 |
| - |
145 |
| - |
146 | 115 | ## 代码来源和参考文献
|
147 | 116 | [Adapter-Based Extension of Multi-Speaker Text-to-Speech Model for New Speakers](https://arxiv.org/abs/2211.00585)
|
148 | 117 |
|
|
0 commit comments