最近b站上的AI孙燕姿很火,那你知道如何用孙燕姿的声音来制作一首歌吗?想要得到最终的成品,需要通过模型的使用和模型的训练,对电脑配置有一定要求。建议可以先使用别人训练好的模型,这样能降低一些门槛,会更简单一些。
1、原始声音的处理
要使用模型进行推理的话首先需要一段已经演唱好的声音垫进去,然后使用模型把原来的音色换成你模型训练好的音色(类似AI画图的img2img垫图)。所以我们先对垫进去的声音进行处理,去掉原始音乐里面的混响和乐器声音,只留下人物的干声这样效果会好一些。
我们会使用UVR_v5.5.0这个软件来处理声音通过两段处理保留人物的干声。
首先是安装,直接双击UVR_v5.5.0_setup.exe一直下一步就行,安装完成后我们需要给UVR增加一个模型解压UVR5模型文件将里面的两个文件夹粘贴到安装目录下的Ultimate Vocal Remover\models就行。
在处理之前你需要把你声音的格式转换成WAV格式,因为So-VITS-SVC 4.0只认WAV格式的音频文件,现在处理了后面会省事点。
处理完音频文件后我们就要开始利用UVR去掉背景音了,一共需要过两次,每次的设置都是不同的,这样能最大限度的保证不需要的声音能被去除干净。
在Select Input选择你需要处理的音频文件,处理完成后你可以在Output的文件夹下面找到处理完成的文件,后缀有(Vocals)就是人声,后缀为(Instrumental)就是伴奏,伴奏先不要删,我们后面合成的时候还需要。
2、推理过程
接下来我们就要运行整合包的Web UI来推理声音了,如果你用的其他人的模型的话你需要先把模型文件放进整合包对应的文件夹下面:
首先是GAN模型和Kmeans模型就是模型文件夹下面后缀为pth和pt的两个文件放到整合包的\logs\44k文件夹下。
之后是配置文件,就是你下载下来的模型文件里那个叫config.json的json文件,放到整合包的\configs文件夹下面。
接下来我们就可以运行整合包的Web UI了,打开整合包根目录下的【启动webui.bat】这个文件他会自动运行并打开Web UI的网页,经常玩Stable Diffusion的朋友肯定对这个操作不陌生。 下面就是Web UI的界面我们使用模型的时候主要用的是推理这个功能。
之后就是选择我们的模型,如果你刚才已经把模型放到合适的位置的话你现在应该能在下图的两个位置选择到你的模型和配置文件,如果有报错会在输出信息的位置显示。
选择完模型之后我们需要点击加载模型,等待一段时间Loading之后模型会加载完成。Output Message这里会输出加载的结果。
3、音轨合并
之后就是上传我们处理好的需要垫的音频文件了,把文件拖动到红框位置就行。
接下来是两个比较重要的选项怕【聚类f0】会让输出效果更好,但是如果你的文件是歌声的话不要勾选这个选项,不然会疯狂跑调。【F0均值滤波】主要解决哑音问题,如果你输出的内容有比较明显的哑音的话可以勾选尝试一下,这个选项歌声可以使用。
除了这两个选项之外的其他选项不建议动。除非你理解它是什么意思。
设置好之后我们点击【音频转换】按钮之后经过一段时间的运算,就可以生成对应的音乐了。
我们现在生成的是一段只有人声的干声,这时候我们刚才剥离出来的伴奏就有用了,把两段音频合成就行,我用的剪映,直接把两段音轨拖进去导出就行,也可以加张图片变成视频。(歸藏)
github地址是:https://github.com/svc-develop-team/so-vits-svc