add colab notebook

2023-03-12 11:27:17 +08:00 · 2023-03-12 11:27:17 +08:00 · b3430e7300
parent 33f8782968
commit b3430e7300
1 changed files with 29 additions and 9 deletions
--- a/README_zh_CN.md
+++ b/README_zh_CN.md
@ -16,9 +16,11 @@
 > 更新了4.0-v2模型，全部流程同4.0，相比4.0在部分场景下有一定提升，但也有些情况有退步，具体可移步[4.0-v2分支](https://github.com/svc-develop-team/so-vits-svc/tree/4.0-v2)

 ## 模型简介
+
 歌声音色转换模型，通过SoftVC内容编码器提取源音频语音特征，与F0同时输入VITS替换原本的文本输入达到歌声转换的效果。同时，更换声码器为 [NSF HiFiGAN](https://github.com/openvpi/DiffSinger/tree/refactor/modules/nsf_hifigan) 解决断音问题

 ### 4.0版本更新内容
+
 + 特征输入更换为 [Content Vec](https://github.com/auspicious3000/contentvec) 
 + 采样率统一使用44100hz
 + 由于更改了hop size等参数以及精简了部分模型结构，推理所需显存占用**大幅降低**，4.0版本44khz显存占用甚至小于3.0版本的32khz
@ -33,6 +35,7 @@

 + contentvec ：[checkpoint_best_legacy_500.pt](https://ibm.box.com/s/z1wgl1stco8ffooyatzdwsqn2psd9lrr)
  + 放在`hubert`目录下
+
 ```shell
 # contentvec
 http://obs.cstcloud.cn/share/obs/sankagenkeshi/checkpoint_best_legacy_500.pt
@ -48,11 +51,10 @@ http://obs.cstcloud.cn/share/obs/sankagenkeshi/checkpoint_best_legacy_500.pt

 虽然底模一般不会引起什么版权问题，但还是请注意一下，比如事先询问作者，又或者作者在模型描述中明确写明了可行的用途

-## colab一键数据集制作、训练脚本
-[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/19fxpo-ZoL_ShEUeZIZi6Di-YioWrEyhR#scrollTo=0gQcIZ8RsOkn)
-
 ## 数据集准备
+
 仅需要以以下文件结构将数据集放入dataset_raw目录即可
+
 ```shell
 dataset_raw
 ├───speaker0
@ -65,31 +67,37 @@ dataset_raw
    └───xxx7-xxx007.wav
 ```

-
 ## 数据预处理
+
 1. 重采样至 44100hz

 ```shell
 python resample.py
- ```
+```
+ 
 2. 自动划分训练集 验证集 测试集 以及自动生成配置文件
+
 ```shell
 python preprocess_flist_config.py
 ```
+
 3. 生成hubert与f0
+
 ```shell
 python preprocess_hubert_f0.py
 ```
+
 执行完以上步骤后 dataset 目录便是预处理完成的数据，可以删除dataset_raw文件夹了

-
 ## 训练
+
 ```shell
 python train.py -c configs/config.json -m 44k
 ```
 注：训练时会自动清除老的模型，只保留最新3个模型，如果想防止过拟合需要自己手动备份模型记录点,或修改配置文件keep_ckpts 0为永不清除

 ## 推理
+
 使用 [inference_main.py](inference_main.py)

 截止此处，4.0使用方法（训练、推理）和3.0完全一致，没有任何变化（推理增加了命令行支持）
@ -98,6 +106,7 @@ python train.py -c configs/config.json -m 44k
 # 例
 python inference_main.py -m "logs/44k/G_30400.pth" -c "configs/config.json" -n "君の知らない物語-src.wav" -t 0 -s "nen"
 ```
+
 必填项部分
 + -m, --model_path：模型路径。
 + -c, --config_path：配置文件路径。
@ -111,15 +120,21 @@ python inference_main.py -m "logs/44k/G_30400.pth" -c "configs/config.json" -n "
 + -cr, --cluster_infer_ratio：聚类方案占比，范围 0-1，若没有训练聚类模型则填 0 即可。

 ## 可选项
-如果前面的效果已经满意，或者没看明白下面在讲啥，那后面的内容都可以忽略，不影响模型使用。(这些可选项影响比较小，可能在某些特定数据上有点效果，但大部分情况似乎都感知不太明显)，
+
+如果前面的效果已经满意，或者没看明白下面在讲啥，那后面的内容都可以忽略，不影响模型使用(这些可选项影响比较小，可能在某些特定数据上有点效果，但大部分情况似乎都感知不太明显)
+
 ### 自动f0预测
+
 4.0模型训练过程会训练一个f0预测器，对于语音转换可以开启自动音高预测，如果效果不好也可以使用手动的，但转换歌声时请不要启用此功能！！！会严重跑调！！
 + 在inference_main中设置auto_predict_f0为true即可
+
 ### 聚类音色泄漏控制
+
 介绍：聚类方案可以减小音色泄漏，使得模型训练出来更像目标的音色（但其实不是特别明显），但是单纯的聚类方案会降低模型的咬字（会口齿不清）（这个很明显），本模型采用了融合的方式，
 可以线性控制聚类方案与非聚类方案的占比，也就是可以手动在"像目标音色" 和 "咬字清晰" 之间调整比例，找到合适的折中点。

 使用聚类前面的已有步骤不用进行任何的变动，只需要额外训练一个聚类模型，虽然效果比较有限，但训练成本也比较低
+
 + 训练过程：
  + 使用cpu性能较好的机器训练，据我的经验在腾讯云6核cpu训练每个speaker需要约4分钟即可完成训练
  + 执行python cluster/train_cluster.py ，模型的输出会在 logs/44k/kmeans_10000.pt
@ -127,7 +142,10 @@ python inference_main.py -m "logs/44k/G_30400.pth" -c "configs/config.json" -n "
  + inference_main中指定cluster_model_path
  + inference_main中指定cluster_infer_ratio，0为完全不使用聚类，1为只使用聚类，通常设置0.5即可

+### [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1kv-3y2DmZo0uya8pEr1xk7cSB-4e_Pct?usp=sharing) [sovits4 for colab.ipynb](https://colab.research.google.com/drive/1kv-3y2DmZo0uya8pEr1xk7cSB-4e_Pct?usp=sharing)
+
 ## Onnx导出
+
 使用 [onnx_export.py](onnx_export.py)
 + 新建文件夹：`checkpoints` 并打开
 + 在`checkpoints`文件夹中新建一个文件夹作为项目文件夹，文件夹名为你的项目名称，比如`aziplayer`
@ -135,8 +153,10 @@ python inference_main.py -m "logs/44k/G_30400.pth" -c "configs/config.json" -n "
 + 将 [onnx_export.py](onnx_export.py) 中`path = "NyaruTaffy"` 的 `"NyaruTaffy"` 修改为你的项目名称，`path = "aziplayer"`
 + 运行 [onnx_export.py](onnx_export.py) 
 + 等待执行完毕，在你的项目文件夹下会生成一个`model.onnx`，即为导出的模型
-   ### Onnx模型支持的UI
-   + [MoeSS](https://github.com/NaruseMioShirakana/MoeSS)
+
+### Onnx模型支持的UI
+
+ [MoeSS](https://github.com/NaruseMioShirakana/MoeSS)
 + 我去除了所有的训练用函数和一切复杂的转置，一行都没有保留，因为我认为只有去除了这些东西，才知道你用的是Onnx
 + 注意：Hubert Onnx模型请使用MoeSS提供的模型，目前无法自行导出（fairseq中Hubert有不少onnx不支持的算子和涉及到常量的东西，在导出时会报错或者导出的模型输入输出shape和结果都有问题）
 [Hubert4.0](https://huggingface.co/NaruseMioShirakana/MoeSS-SUBModel)