Merge pull request #12 from Miuzarte/4.0

remove README_cn.md
This commit is contained in:
友利奈绪是我的 2023-03-11 23:38:34 +08:00 committed by GitHub
commit 516cf3a636
No known key found for this signature in database
GPG Key ID: 4AEE18F83AFDEB23
5 changed files with 2 additions and 78 deletions

View File

@ -1,5 +1,4 @@
# SoftVC VITS Singing Voice Conversion
[**English**](./README.md) | 中文简体
# SoftVC VITS Singing Voice
## Terms of Use
@ -173,4 +172,4 @@ Note: For Hubert Onnx models, please use the models provided by MoeSS. Currently
##### 第一千零二十七条
【作品侵害名誉权】行为人发表的文学、艺术作品以真人真事或者特定人为描述对象,含有侮辱、诽谤内容,侵害他人名誉权的,受害人有权依法请求该行为人承担民事责任。
行为人发表的文学、艺术作品不以特定人为描述对象,仅其中的情节与该特定人的情况相似的,不承担民事责任。
行为人发表的文学、艺术作品不以特定人为描述对象,仅其中的情节与该特定人的情况相似的,不承担民事责任。

View File

@ -1,29 +0,0 @@
# 数据集准备
仅需要以以下文件结构将数据集放入 dataset_raw 目录即可
```shell
dataset_raw
├───speaker0
│ ├───xxx1-xxx1.wav
│ ├───...
│ └───Lxx-0xx8.wav
└───speaker1
├───xx2-0xxx2.wav
├───...
└───xxx7-xxx007.wav
```
# 数据预处理
1. 重采样至 44100hz
```shell
python resample.py
```
2. 自动划分训练集 验证集 测试集 以及自动生成配置文件
```shell
python preprocess_flist_config.py
```
3. 生成 hubert 与 f0
```shell
python preprocess_hubert_f0.py
```
执行完以上步骤后 dataset 目录便是预处理完成的数据,可以删除 dataset_raw 文件夹了

View File

@ -1,12 +0,0 @@
# Onnx 导出
使用 [onnx_export.py](https://github.com/svc-develop-team/so-vits-svc/blob/4.0/onnx_export.py)
+ 新建文件夹:`checkpoints` 并打开
+ 在 `checkpoints` 文件夹中新建一个文件夹作为项目文件夹,文件夹名为你的项目名称,比如 `aziplayer`
+ 将你的模型更名为 `model.pth`,配置文件更名为 `config.json`,并放置到刚才创建的 `aziplayer` 文件夹下
+ 将 [onnx_export.py](https://github.com/svc-develop-team/so-vits-svc/blob/4.0/onnx_export.py) 中 `path ="NyaruTaffy"`的`"NyaruTaffy"`修改为你的项目名称,`path = "aziplayer"`
+ 运行 [onnx_export.py](https://github.com/svc-develop-team/so-vits-svc/blob/4.0/onnx_export.py)
+ 等待执行完毕,在你的项目文件夹下会生成一个 `model.onnx`,即为导出的模型
# Onnx 模型支持的 UI
+ [MoeSS](https://github.com/NaruseMioShirakana/MoeSS)
+ 注意Hubert Onnx 模型请使用 MoeSS 提供的模型目前无法自行导出fairseq 中 Hubert 有不少 onnx 不支持的算子和涉及到常量的东西,在导出时会报错或者导出的模型输入输出 shape 和结果都有问题)
[Hubert4.0](https://huggingface.co/NaruseMioShirakana/MoeSS-SUBModel)

View File

@ -1,18 +0,0 @@
# 预先下载的模型文件
sovits 依赖于以下模型进行训练、推理
+ contentvec [checkpoint_best_legacy_500.pt](https://ibm.box.com/s/z1wgl1stco8ffooyatzdwsqn2psd9lrr)
+ 放在 `hubert` 目录下
+ 预训练底模文件(仅训练,可选): [G_0.pth](https://huggingface.co/innnky/sovits_pretrained/resolve/main/sovits4/G_0.pth) 与 [D_0.pth](https://huggingface.co/innnky/sovits_pretrained/resolve/main/sovits4/D_0.pth)
+ 放在 `logs/44k` 目录下
```shell
# 一键下载
# contentvec
wget -P hubert/http://obs.cstcloud.cn/share/obs/sankagenkeshi/checkpoint_best_legacy_500.pt
# 也可手动下载放在 hubert 目录
# G 与 D 预训练模型:
wget -P logs/44k/https://huggingface.co/innnky/sovits_pretrained/resolve/main/sovits4/G_0.pth
wget -P logs/44k/https://huggingface.co/innnky/sovits_pretrained/resolve/main/sovits4/D_0.pth
```

View File

@ -1,16 +0,0 @@
# 技巧
如果前面的效果已经满意,或者没看明白下面在讲啥,那后面的内容都可以忽略,不影响模型使用。(这些可选项影响比较小,可能在某些特定数据上有点效果,但大部分情况似乎都感知不太明显)
## 自动 f0 预测
4.0 模型训练过程会训练一个 f0 预测器,对于语音转换可以开启自动音高预测,如果效果不好也可以使用手动的,但转换歌声时请不要启用此功能!!!会严重跑调!!
+ 在 inference_main 中设置 auto_predict_f0 为 true 即可
## 聚类音色泄漏控制
介绍:聚类方案可以减小音色泄漏,使得模型训练出来更像目标的音色(但其实不是特别明显),但是单纯的聚类方案会降低模型的咬字(会口齿不清)(这个很明显),本模型采用了融合的方式,
可以线性控制聚类方案与非聚类方案的占比,也就是可以手动在 "像目标音色" 和 "咬字清晰" 之间调整比例,找到合适的折中点。
使用聚类前面的已有步骤不用进行任何的变动,只需要额外训练一个聚类模型,虽然效果比较有限,但训练成本也比较低
+ 训练过程:
+ 使用 cpu 性能较好的机器训练,据我的经验在腾讯云 6 核 cpu 训练每个 speaker 需要约 4 分钟即可完成训练
+ 执行 python cluster/train_cluster.py ,模型的输出会在 logs/44k/kmeans_10000.pt
+ 推理过程:
+ inference_main 中指定 cluster_model_path
+ inference_main 中指定 cluster_infer_ratio0 为完全不使用聚类1 为只使用聚类,通常设置 0.5 即可