Delete docs/cn directory
This commit is contained in:
parent
ce7a93bea5
commit
0b199ebd4e
|
@ -1,29 +0,0 @@
|
|||
# 数据集准备
|
||||
仅需要以以下文件结构将数据集放入 dataset_raw 目录即可
|
||||
```shell
|
||||
dataset_raw
|
||||
├───speaker0
|
||||
│ ├───xxx1-xxx1.wav
|
||||
│ ├───...
|
||||
│ └───Lxx-0xx8.wav
|
||||
└───speaker1
|
||||
├───xx2-0xxx2.wav
|
||||
├───...
|
||||
└───xxx7-xxx007.wav
|
||||
```
|
||||
|
||||
# 数据预处理
|
||||
1. 重采样至 44100hz
|
||||
|
||||
```shell
|
||||
python resample.py
|
||||
```
|
||||
2. 自动划分训练集 验证集 测试集 以及自动生成配置文件
|
||||
```shell
|
||||
python preprocess_flist_config.py
|
||||
```
|
||||
3. 生成 hubert 与 f0
|
||||
```shell
|
||||
python preprocess_hubert_f0.py
|
||||
```
|
||||
执行完以上步骤后 dataset 目录便是预处理完成的数据,可以删除 dataset_raw 文件夹了
|
|
@ -1,12 +0,0 @@
|
|||
# Onnx 导出
|
||||
使用 [onnx_export.py](https://github.com/svc-develop-team/so-vits-svc/blob/4.0/onnx_export.py)
|
||||
+ 新建文件夹:`checkpoints` 并打开
|
||||
+ 在 `checkpoints` 文件夹中新建一个文件夹作为项目文件夹,文件夹名为你的项目名称,比如 `aziplayer`
|
||||
+ 将你的模型更名为 `model.pth`,配置文件更名为 `config.json`,并放置到刚才创建的 `aziplayer` 文件夹下
|
||||
+ 将 [onnx_export.py](https://github.com/svc-develop-team/so-vits-svc/blob/4.0/onnx_export.py) 中 `path ="NyaruTaffy"`的`"NyaruTaffy"`修改为你的项目名称,`path = "aziplayer"`
|
||||
+ 运行 [onnx_export.py](https://github.com/svc-develop-team/so-vits-svc/blob/4.0/onnx_export.py)
|
||||
+ 等待执行完毕,在你的项目文件夹下会生成一个 `model.onnx`,即为导出的模型
|
||||
# Onnx 模型支持的 UI
|
||||
+ [MoeSS](https://github.com/NaruseMioShirakana/MoeSS)
|
||||
+ 注意:Hubert Onnx 模型请使用 MoeSS 提供的模型,目前无法自行导出(fairseq 中 Hubert 有不少 onnx 不支持的算子和涉及到常量的东西,在导出时会报错或者导出的模型输入输出 shape 和结果都有问题)
|
||||
[Hubert4.0](https://huggingface.co/NaruseMioShirakana/MoeSS-SUBModel)
|
|
@ -1,18 +0,0 @@
|
|||
# 预先下载的模型文件
|
||||
|
||||
sovits 依赖于以下模型进行训练、推理
|
||||
|
||||
+ contentvec :[checkpoint_best_legacy_500.pt](https://ibm.box.com/s/z1wgl1stco8ffooyatzdwsqn2psd9lrr)
|
||||
+ 放在 `hubert` 目录下
|
||||
+ 预训练底模文件(仅训练,可选): [G_0.pth](https://huggingface.co/innnky/sovits_pretrained/resolve/main/sovits4/G_0.pth) 与 [D_0.pth](https://huggingface.co/innnky/sovits_pretrained/resolve/main/sovits4/D_0.pth)
|
||||
+ 放在 `logs/44k` 目录下
|
||||
```shell
|
||||
# 一键下载
|
||||
# contentvec
|
||||
wget -P hubert/http://obs.cstcloud.cn/share/obs/sankagenkeshi/checkpoint_best_legacy_500.pt
|
||||
# 也可手动下载放在 hubert 目录
|
||||
# G 与 D 预训练模型:
|
||||
wget -P logs/44k/https://huggingface.co/innnky/sovits_pretrained/resolve/main/sovits4/G_0.pth
|
||||
wget -P logs/44k/https://huggingface.co/innnky/sovits_pretrained/resolve/main/sovits4/D_0.pth
|
||||
|
||||
```
|
|
@ -1,16 +0,0 @@
|
|||
# 技巧
|
||||
如果前面的效果已经满意,或者没看明白下面在讲啥,那后面的内容都可以忽略,不影响模型使用。(这些可选项影响比较小,可能在某些特定数据上有点效果,但大部分情况似乎都感知不太明显),
|
||||
## 自动 f0 预测
|
||||
4.0 模型训练过程会训练一个 f0 预测器,对于语音转换可以开启自动音高预测,如果效果不好也可以使用手动的,但转换歌声时请不要启用此功能!!!会严重跑调!!
|
||||
+ 在 inference_main 中设置 auto_predict_f0 为 true 即可
|
||||
## 聚类音色泄漏控制
|
||||
介绍:聚类方案可以减小音色泄漏,使得模型训练出来更像目标的音色(但其实不是特别明显),但是单纯的聚类方案会降低模型的咬字(会口齿不清)(这个很明显),本模型采用了融合的方式,
|
||||
可以线性控制聚类方案与非聚类方案的占比,也就是可以手动在 "像目标音色" 和 "咬字清晰" 之间调整比例,找到合适的折中点。
|
||||
|
||||
使用聚类前面的已有步骤不用进行任何的变动,只需要额外训练一个聚类模型,虽然效果比较有限,但训练成本也比较低
|
||||
+ 训练过程:
|
||||
+ 使用 cpu 性能较好的机器训练,据我的经验在腾讯云 6 核 cpu 训练每个 speaker 需要约 4 分钟即可完成训练
|
||||
+ 执行 python cluster/train_cluster.py ,模型的输出会在 logs/44k/kmeans_10000.pt
|
||||
+ 推理过程:
|
||||
+ inference_main 中指定 cluster_model_path
|
||||
+ inference_main 中指定 cluster_infer_ratio,0 为完全不使用聚类,1 为只使用聚类,通常设置 0.5 即可
|
Loading…
Reference in New Issue