diff --git a/docs/cn/datasets.md b/docs/cn/datasets.md deleted file mode 100644 index e98955c..0000000 --- a/docs/cn/datasets.md +++ /dev/null @@ -1,29 +0,0 @@ -# 数据集准备 -仅需要以以下文件结构将数据集放入 dataset_raw 目录即可 -```shell -dataset_raw -├───speaker0 -│ ├───xxx1-xxx1.wav -│ ├───... -│ └───Lxx-0xx8.wav -└───speaker1 - ├───xx2-0xxx2.wav - ├───... - └───xxx7-xxx007.wav -``` - -# 数据预处理 -1. 重采样至 44100hz - -```shell -python resample.py -``` -2. 自动划分训练集 验证集 测试集 以及自动生成配置文件 -```shell -python preprocess_flist_config.py -``` -3. 生成 hubert 与 f0 -```shell -python preprocess_hubert_f0.py -``` -执行完以上步骤后 dataset 目录便是预处理完成的数据,可以删除 dataset_raw 文件夹了 diff --git a/docs/cn/onnx.md b/docs/cn/onnx.md deleted file mode 100644 index ea025ed..0000000 --- a/docs/cn/onnx.md +++ /dev/null @@ -1,12 +0,0 @@ -# Onnx 导出 -使用 [onnx_export.py](https://github.com/svc-develop-team/so-vits-svc/blob/4.0/onnx_export.py) -+ 新建文件夹:`checkpoints` 并打开 -+ 在 `checkpoints` 文件夹中新建一个文件夹作为项目文件夹,文件夹名为你的项目名称,比如 `aziplayer` -+ 将你的模型更名为 `model.pth`,配置文件更名为 `config.json`,并放置到刚才创建的 `aziplayer` 文件夹下 -+ 将 [onnx_export.py](https://github.com/svc-develop-team/so-vits-svc/blob/4.0/onnx_export.py) 中 `path ="NyaruTaffy"`的`"NyaruTaffy"`修改为你的项目名称,`path = "aziplayer"` -+ 运行 [onnx_export.py](https://github.com/svc-develop-team/so-vits-svc/blob/4.0/onnx_export.py) -+ 等待执行完毕,在你的项目文件夹下会生成一个 `model.onnx`,即为导出的模型 -# Onnx 模型支持的 UI - + [MoeSS](https://github.com/NaruseMioShirakana/MoeSS) -+ 注意:Hubert Onnx 模型请使用 MoeSS 提供的模型,目前无法自行导出(fairseq 中 Hubert 有不少 onnx 不支持的算子和涉及到常量的东西,在导出时会报错或者导出的模型输入输出 shape 和结果都有问题) -[Hubert4.0](https://huggingface.co/NaruseMioShirakana/MoeSS-SUBModel) diff --git a/docs/cn/requirement_models.md b/docs/cn/requirement_models.md deleted file mode 100644 index 737928e..0000000 --- a/docs/cn/requirement_models.md +++ /dev/null @@ -1,18 +0,0 @@ -# 预先下载的模型文件 - -sovits 依赖于以下模型进行训练、推理 - -+ contentvec :[checkpoint_best_legacy_500.pt](https://ibm.box.com/s/z1wgl1stco8ffooyatzdwsqn2psd9lrr) - + 放在 `hubert` 目录下 -+ 预训练底模文件(仅训练,可选): [G_0.pth](https://huggingface.co/innnky/sovits_pretrained/resolve/main/sovits4/G_0.pth) 与 [D_0.pth](https://huggingface.co/innnky/sovits_pretrained/resolve/main/sovits4/D_0.pth) - + 放在 `logs/44k` 目录下 -```shell -# 一键下载 -# contentvec -wget -P hubert/http://obs.cstcloud.cn/share/obs/sankagenkeshi/checkpoint_best_legacy_500.pt -# 也可手动下载放在 hubert 目录 -# G 与 D 预训练模型: -wget -P logs/44k/https://huggingface.co/innnky/sovits_pretrained/resolve/main/sovits4/G_0.pth -wget -P logs/44k/https://huggingface.co/innnky/sovits_pretrained/resolve/main/sovits4/D_0.pth - -``` \ No newline at end of file diff --git a/docs/cn/skills.md b/docs/cn/skills.md deleted file mode 100644 index 59e884d..0000000 --- a/docs/cn/skills.md +++ /dev/null @@ -1,16 +0,0 @@ -# 技巧 -如果前面的效果已经满意,或者没看明白下面在讲啥,那后面的内容都可以忽略,不影响模型使用。(这些可选项影响比较小,可能在某些特定数据上有点效果,但大部分情况似乎都感知不太明显), -## 自动 f0 预测 -4.0 模型训练过程会训练一个 f0 预测器,对于语音转换可以开启自动音高预测,如果效果不好也可以使用手动的,但转换歌声时请不要启用此功能!!!会严重跑调!! -+ 在 inference_main 中设置 auto_predict_f0 为 true 即可 -## 聚类音色泄漏控制 -介绍:聚类方案可以减小音色泄漏,使得模型训练出来更像目标的音色(但其实不是特别明显),但是单纯的聚类方案会降低模型的咬字(会口齿不清)(这个很明显),本模型采用了融合的方式, -可以线性控制聚类方案与非聚类方案的占比,也就是可以手动在 "像目标音色" 和 "咬字清晰" 之间调整比例,找到合适的折中点。 - -使用聚类前面的已有步骤不用进行任何的变动,只需要额外训练一个聚类模型,虽然效果比较有限,但训练成本也比较低 -+ 训练过程: - + 使用 cpu 性能较好的机器训练,据我的经验在腾讯云 6 核 cpu 训练每个 speaker 需要约 4 分钟即可完成训练 - + 执行 python cluster/train_cluster.py ,模型的输出会在 logs/44k/kmeans_10000.pt -+ 推理过程: - + inference_main 中指定 cluster_model_path - + inference_main 中指定 cluster_infer_ratio,0 为完全不使用聚类,1 为只使用聚类,通常设置 0.5 即可 \ No newline at end of file