so-vits-svc/README_zh_CN.md

17 KiB
Raw Blame History

SoftVC VITS Singing Voice Conversion

在歌唱声音转换领域不仅有SoVitsSvc一个项目还有很多其他项目这里就不一一列举了。该项目正式停止维护和存档。

然而仍然有其他的爱好者创建了他们自己的分支并继续维护SoVitsSvc项目(仍然与SvcDevelopTeam和存储库维护者无关),并对它进行了一些大的更改,供您自己发现。

English | 中文简体

改善了交互的一个分支推荐:34j/so-vits-svc-fork

支持实时转换的一个客户端:w-okada/voice-changer

重要通知

这个项目是为了让开发者最喜欢的动画角色唱歌而开发的,任何涉及真人的东西都与开发者的意图背道而驰。

声明

本项目为开源、离线的项目SvcDevelopTeam的所有成员与本项目的所有开发者以及维护者以下简称贡献者对本项目没有控制力。本项目的贡献者从未向任何组织或个人提供包括但不限于数据集提取、数据集加工、算力支持、训练支持、推理等一切形式的帮助本项目的贡献者不知晓也无法知晓使用者使用该项目的用途。故一切基于本项目训练的AI模型和合成的音频都与本项目贡献者无关。一切由此造成的问题由使用者自行承担。 此项目完全离线运行,不能收集任何用户信息或获取用户输入数据。因此,这个项目的贡献者不知道所有的用户输入和模型,因此不负责任何用户输入。 本项目只是一个框架项目,本身并没有语音合成的功能,所有的功能都需要用户自己训练模型。同时,这个项目没有任何模型,任何二次分发的项目都与这个项目的贡献者无关

📏 使用规约

Warning请自行解决数据集授权问题禁止使用非授权数据集进行训练任何由于使用非授权数据集进行训练造成的问题需自行承担全部责任和后果与仓库、仓库维护者、svc develop team 无关!

  1. 本项目是基于学术交流目的建立,仅供交流与学习使用,并非为生产环境准备。
  2. 任何发布到视频平台的基于 sovits 制作的视频,都必须要在简介明确指明用于变声器转换的输入源歌声、音频,例如:使用他人发布的视频 / 音频,通过分离的人声作为输入源进行转换的,必须要给出明确的原视频、音乐链接;若使用是自己的人声,或是使用其他歌声合成引擎合成的声音作为输入源进行转换的,也必须在简介加以说明。
  3. 由输入源造成的侵权问题需自行承担全部责任和一切后果。使用其他商用歌声合成软件作为输入源时,请确保遵守该软件的使用条例,注意,许多歌声合成引擎使用条例中明确指明不可用于输入源进行转换!
  4. 禁止使用该项目从事违法行为与宗教、政治等活动,该项目维护者坚决抵制上述行为,不同意此条则禁止使用该项目。
  5. 继续使用视为已同意本仓库 README 所述相关条例,本仓库 README 已进行劝导义务,不对后续可能存在问题负责。
  6. 如果将此项目用于任何其他企划,请提前联系并告知本仓库作者,十分感谢。

🆕 Update!

更新了4.0-v2模型全部流程同4.0相比4.0在部分场景下有一定提升,但也有些情况有退步,具体可移步4.0-v2分支

📝 4.0各分支特性列表

分支名 特性 是否与主分支模型兼容
4.0 主分支 -
4.0v2 采用了VISinger2模型 不兼容
4.0-Vec768-Layer12 特征输入为Content Vec的第12层Transformer输出 修改配置文件后兼容

📝 模型简介

歌声音色转换模型通过SoftVC内容编码器提取源音频语音特征与F0同时输入VITS替换原本的文本输入达到歌声转换的效果。同时更换声码器为 NSF HiFiGAN 解决断音问题

🆕 4.0-Vec768-Layer12 版本更新内容

  • 特征输入更换为 Content Vec 的第12层Transformer输出

🆕 关于兼容主分支模型的问题

  • 可通过修改主分支模型的config.json对主分支的模型进行支持需要在config.json的model字段中添加speech_encoder字段具体见下
  "model": {
    .........
    "ssl_dim": 768,
    "n_speakers": 200,
    "speech_encoder":"vec256l9"
  }

💬 关于 Python 版本问题

在进行测试后,我们认为Python 3.8.9能够稳定地运行该项目

📥 预先下载的模型文件

必须项

以下编码器需要选择一个使用

1. 若使用contentvec作为声音编码器
# contentvec
wget -P pretrain/ http://obs.cstcloud.cn/share/obs/sankagenkeshi/checkpoint_best_legacy_500.pt
# 也可手动下载放在pretrain目录
2. 若使用hubertsoft作为声音编码器

可选项(强烈建议使用)

  • 预训练底模文件: G_0.pth D_0.pth
    • 放在logs/44k目录下

从svc-develop-team(待定)或任何其他地方获取

虽然底模一般不会引起什么版权问题,但还是请注意一下,比如事先询问作者,又或者作者在模型描述中明确写明了可行的用途

可选项(根据情况选择)

如果使用NSF-HIFIGAN增强器的话需要下载预训练的NSF-HIFIGAN模型如果不需要可以不下载

  • 预训练的NSF-HIFIGAN声码器 nsf_hifigan_20221211.zip
    • 解压后,将四个文件放在pretrain/nsf_hifigan目录下
# nsf_hifigan
wget -P pretrain/ https://github.com/openvpi/vocoders/releases/download/nsf-hifigan-v1/nsf_hifigan_20221211.zip
# 也可手动下载放在pretrain/nsf_hifigan目录
# 地址https://github.com/openvpi/vocoders/releases/tag/nsf-hifigan-v1

📊 数据集准备

仅需要以以下文件结构将数据集放入dataset_raw目录即可

dataset_raw
├───speaker0
│   ├───xxx1-xxx1.wav
│   ├───...
│   └───Lxx-0xx8.wav
└───speaker1
    ├───xx2-0xxx2.wav
    ├───...
    └───xxx7-xxx007.wav

可以自定义说话人名称

dataset_raw
└───suijiSUI
    ├───1.wav
    ├───...
    └───25788785-20221210-200143-856_01_(Vocals)_0_0.wav

🛠️ 数据预处理

0. 音频切片

将音频切片至5s - 15s, 稍微长点也无伤大雅,实在太长可能会导致训练中途甚至预处理就爆显存。

可以使用audio-slicer-GUIaudio-slicer-CLI

一般情况下只需调整其中的Minimum Interval,普通陈述素材通常保持默认即可,歌唱素材可以调整至100甚至50

切完之后手动删除过长过短的音频

1. 重采样至44100Hz单声道

python resample.py

2. 自动划分训练集、验证集,以及自动生成配置文件

python preprocess_flist_config.py --speech_encoder vec768l12

speech_encoder拥有三个选择

vec768l12
vec256l9
hubertsoft

如果省略speech_encoder参数默认值为vec768l12

3. 生成hubert与f0

python preprocess_hubert_f0.py --f0_predictor dio

f0_predictor拥有四个选择

crepe
dio
pm
harvest

如果训练集过于嘈杂请使用crepe处理f0

如果省略f0_predictor参数默认值为dio

执行完以上步骤后 dataset 目录便是预处理完成的数据,可以删除 dataset_raw 文件夹了

此时可以在生成的config.json修改部分参数

  • keep_ckpts:训练时保留最后几个模型,0为保留所有,默认只保留最后3

  • all_in_mem加载所有数据集到内存中某些平台的硬盘IO过于低下、同时内存容量 远大于 数据集体积时可以启用

🏋️‍♀️ 训练

python train.py -c configs/config.json -m 44k

🤖 推理

使用 inference_main.py

# 例
python inference_main.py -m "logs/44k/G_30400.pth" -c "configs/config.json" -n "君の知らない物語-src.wav" -t 0 -s "nen"

必填项部分

  • -m | --model_path:模型路径
  • -c | --config_path:配置文件路径
  • -n | --clean_nameswav 文件名列表,放在 raw 文件夹下
  • -t | --trans:音高调整,支持正负(半音)
  • -s | --spk_list:合成目标说话人名称
  • -cl | --clip音频强制切片默认0为自动切片单位为秒/s

可选项部分:部分具体见下一节

  • -lg | --linear_gradient两段音频切片的交叉淡入长度如果强制切片后出现人声不连贯可调整该数值如果连贯建议采用默认值0单位为秒
  • -f0p | --f0_predictor选择F0预测器,可选择crepe,pm,dio,harvest,默认为pm(注意crepe为原F0使用均值滤波器)
  • -a | --auto_predict_f0:语音转换自动预测音高,转换歌声时不要打开这个会严重跑调
  • -cm | --cluster_model_path:聚类模型路径,如果没有训练聚类则随便填
  • -cr | --cluster_infer_ratio聚类方案占比范围0-1若没有训练聚类模型则默认0即可
  • -eh | --enhance是否使用NSF_HIFIGAN增强器,该选项对部分训练集少的模型有一定的音质增强效果,但是对训练好的模型有反面效果,默认关闭

🤔 可选项

如果前面的效果已经满意,或者没看明白下面在讲啥,那后面的内容都可以忽略,不影响模型使用(这些可选项影响比较小,可能在某些特定数据上有点效果,但大部分情况似乎都感知不太明显)

自动f0预测

4.0模型训练过程会训练一个f0预测器对于语音转换可以开启自动音高预测如果效果不好也可以使用手动的但转换歌声时请不要启用此功能会严重跑调

  • 在inference_main中设置auto_predict_f0为true即可

聚类音色泄漏控制

介绍:聚类方案可以减小音色泄漏,使得模型训练出来更像目标的音色(但其实不是特别明显),但是单纯的聚类方案会降低模型的咬字(会口齿不清)(这个很明显),本模型采用了融合的方式,可以线性控制聚类方案与非聚类方案的占比,也就是可以手动在"像目标音色" 和 "咬字清晰" 之间调整比例,找到合适的折中点。

使用聚类前面的已有步骤不用进行任何的变动,只需要额外训练一个聚类模型,虽然效果比较有限,但训练成本也比较低

  • 训练过程:
    • 使用cpu性能较好的机器训练据我的经验在腾讯云6核cpu训练每个speaker需要约4分钟即可完成训练
    • 执行python cluster/train_cluster.py ,模型的输出会在logs/44k/kmeans_10000.pt
  • 推理过程:
    • inference_main.py中指定cluster_model_path
    • inference_main.py中指定cluster_infer_ratio0为完全不使用聚类,1为只使用聚类,通常设置0.5即可

Open in Colab sovits4_for_colab.ipynb

[23/03/16] 不再需要手动下载hubert

[23/04/14] 支持NSF_HIFIGAN增强器

📤 Onnx导出

使用 onnx_export.py

  • 新建文件夹:checkpoints 并打开
  • checkpoints文件夹中新建一个文件夹作为项目文件夹,文件夹名为你的项目名称,比如aziplayer
  • 将你的模型更名为model.pth,配置文件更名为config.json,并放置到刚才创建的aziplayer文件夹下
  • onnx_export.pypath = "NyaruTaffy""NyaruTaffy" 修改为你的项目名称,path = "aziplayer"
  • 运行 onnx_export.py
  • 等待执行完毕,在你的项目文件夹下会生成一个model.onnx,即为导出的模型

Onnx模型支持的UI

注意Hubert Onnx模型请使用MoeSS提供的模型目前无法自行导出fairseq中Hubert有不少onnx不支持的算子和涉及到常量的东西在导出时会报错或者导出的模型输入输出shape和结果都有问题

CppDataProcess中是一些在MoeSS里处理音频的功能

☀️ 旧贡献者

因为某些原因原作者进行了删库处理本仓库重建之初由于组织成员疏忽直接重新上传了所有文件导致以前的contributors全部木大现在在README里重新添加一个旧贡献者列表

某些成员已根据其个人意愿不将其列出


MistEO


XiaoMiku01


しぐれ


TomoGaSukunai


Plachtaa


zd小达


凍聲響世

📚 一些法律条例参考

任何国家,地区,组织和个人使用此项目必须遵守以下法律

《民法典》

第一千零一十九条

任何组织或者个人不得以丑化、污损,或者利用信息技术手段伪造等方式侵害他人的肖像权。未经肖像权人同意,不得制作、使用、公开肖像权人的肖像,但是法律另有规定的除外。未经肖像权人同意,肖像作品权利人不得以发表、复制、发行、出租、展览等方式使用或者公开肖像权人的肖像。对自然人声音的保护,参照适用肖像权保护的有关规定。

第一千零二十四条

【名誉权】民事主体享有名誉权。任何组织或者个人不得以侮辱、诽谤等方式侵害他人的名誉权。

第一千零二十七条

【作品侵害名誉权】行为人发表的文学、艺术作品以真人真事或者特定人为描述对象,含有侮辱、诽谤内容,侵害他人名誉权的,受害人有权依法请求该行为人承担民事责任。行为人发表的文学、艺术作品不以特定人为描述对象,仅其中的情节与该特定人的情况相似的,不承担民事责任。

中华人民共和国宪法

中华人民共和国刑法

中华人民共和国民法典

💪 感谢所有的贡献者