基于so-vits-svc语音模型实现AI翻唱歌曲

显示全部楼层 · 2023-8-23 11:48:00

目次
获取数据集
开始练习
开始推理（翻唱）

获取数据集

工具整合包泉源
【AI翻唱/SoVITS 4.0】手把手教你老婆唱歌给你听~无需设置环境的当地练习/推理教程[懒人整合包]_哔哩哔哩_bilibili

https://www.bilibili.com/video/BV1H24y187Ko/?spm_id_from=333.1007.top_right_bar_window_custom_collection.content.click&vd_source=bd7513aedfc5a6d9d2da276ca29e3cb5

音频泉源
QQ音乐-HQ高品质下载

zutomayo的歌曲列表

Dear Mr [F]

去和声、混响、切片按上面教程来就好了

已得到数据集

当地硬件程度有限，上云端GPU服务器练习
【so-vits-svc】手把手教你老婆唱歌_哔哩哔哩_bilibili

https://www.bilibili.com/video/BV1vM4y1S7zB/?vd_source=bd7513aedfc5a6d9d2da276ca29e3cb5

AutoDL上选一个好显卡，镜像为up的改进版（加了webui和增补了很多表明）
资源清单
显卡：A5000，cuda版本11.6
镜像：so-vits-svc-webui

按readme.ipynb步调走，末了开始练习
开始练习

练习的相干细节（config.json）
关于练习过程几个指标的关系参考如下
(167条消息) so-vits-svc3.0 中文详细安装、练习、推理利用教程_Sucial的博客-CSDN博客

https://blog.csdn.net/Sucial/article/details/129104472

上面最多语音说话人的语音数可以明白为练习集巨细，也就是说练习集越大，batch_size越小，练习就越快，但练习集比力大时，batch_size调太小推测有大概会对练习结果产生影响

一次处理惩罚数据集的数目：batch_size
如果数据集比力小，则保举设置得小一点，比如我这次练习只是看成测试，数据集只用了一首歌，切成了12份，数据集巨细就只有12，batch_size就只设置成了2，如果设置得太大会导致练习好久都练习不出一个模型，batch_size太大听说也比力吃显存，保举设置成12以内，数据集很大再调高点

练习速率：learning_rate
按readme说两者要成正比，我batch_size调成了2，learning_rate调成了0.000033，练习速率不是看epoch的打印快慢，可以参照输出模型的快慢大概输出评估信息的快慢

隔多久输出一次评估信息：log_interval
注意不是代表打印多少次epoch，数据集越小、batch_size越大必要越多的epoch才气输出一次评估信息
下方是评估信息，各个浮点数的值越小代表丧失越小，结果越好，不太认识可以不管

隔多久输出一次模型：eval_interval
注意不是代表打印多少次epoch，数据集越小、batch_size越大必要越多的epoch才气输出一次模型，输出模型就是log/44k目次下的那些G_开头的pth文件，D_开头的不能用

修改后的config.json如下

QA
停止后继承练习
So-VITS-SVC 4.0 练习/推理常见报错和Q&A - 哔哩哔哩 (bilibili.com)

https://www.bilibili.com/read/cv22206231/
练习不出模型
个人记录VITS利用题目（先发一些，持续摸索） - 哔哩哔哩 (bilibili.com)

https://www.bilibili.com/read/cv22071912/

开始推理（翻唱）

按改进版镜像中的readme利用webui来推理

Webui中只能转换wav文件，其他格式控制台报错要求我们先装ffmpeg把其他格式转成wav，那些可调参数似乎还不能改，改了就转不成了

为了不爆现存，我当地将歌曲（米泽园的POWDER SNOW）先用UVR分成人声和bgm，将人声用AU切分成每段最长1分钟，一段段传到webui上转换后再下回当地

然后再利用AU将多段音频合成完备一段人声（复制音频粘贴到另一段音频后面），还要利用混淆音轨将完备人声和前面的bgm分别拉进两段音轨里并对齐开头

右键混音会话为新建文件，左侧工作区多了一个音频

双击后全选整段音频右键生存，即可得到末了的完备AI音频

来源：https://blog.csdn.net/qq_55891741/article/details/129922907
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

基于so-vits-svc语音模型实现AI翻唱歌曲

本帖子中包含更多资源