AI声音克隆 AI Voice Clone

这是我目前测试出来声音克隆效果最好的一种方式

对电脑配置没有高要求

首先自行获取音频文件

Ultimate Vocal Remover用来分离人声和伴奏,消除混响和声

https://ultimatevocalremover.com/

格式工厂FormatFactory,用来快速转换文件格式

http://formatfactory.org/CN/download.html

Audio Slicer

https://github.com/flutydeer/audio-slicer

新建4个文件夹,1号,2号,3号,4号

把音频文件放到1号文件夹

打开Ultimate Vocal Remover

点击Select Input

选择你在1号文件夹内放的音频文件

点击Select Output

选择2号文件夹(分离人声和伴奏)

选择正确的文件格式:WAV,FLAC,MP3

CHOOSE PROCESS METHOD,选择Demucs

CHOOSE STEM(S),选择Vocals(人声)

勾选GPU Conversion

点击Start Processing

耐心等待一段时间

点击Select Input,选择2号文件夹中_(Vocals)结尾的文件

点击Select Output

选择3号文件夹(消除混响和声)

CHOOSE PROCESS METHOD,选择VR Architecture

WINDOW SIZE,选择320(最小的那个)

AGGRESSION SETTING,选择5

CHOOSE VR MODEL,选择1_HP-UVR

勾选GPU Conversion

点击Start Processing

耐心等待一段时间

*你也可以下载其他算法模型,请自行了解

打开Audio Slicer音频切分(也就是slicer-gui.exe)

放入3号文件夹中以_(Vocals)_(Vocals)结尾的文件(必须要.wav格式)

右侧Minimum Length(ms),输入30000(也就是30秒)

点击Browse...,选择4号文件夹

点击右下角Start

打开4号文件夹检查一下,每段音频不能大于45秒

用浏览器打开网址https://covers.ai/ai-song-generator

我的手机的读写的速度比电脑慢,建议使用电脑操作

Choose or upload a song

Select a voice

等待加载完毕,点击左上角Politicians,列表拉到最底下,选择Xi JinpinGPT AI FAYK CN(没错习近平名字里少个g)

输入你的邮箱(会把文件链接发到你的邮箱,这样就不会弄丢了)

打勾✔

点击Let's go!

稍等一段时间

打开你的邮箱

打开链接

耐心等待加载完毕

点击Download

点击Get Video(免费用户只能选择这个)

这个网站理论上每天只能克隆两次,每次最多45秒

但是我们可以使用浏览器插件白嫖次数

比如我用Microsoft Edge浏览器,安装Clear Site Data插件,选择All Web Sites,双击Clear Site Data

*Threshold(阈值):以dB(分贝)表示的 RMS阈值。所有 RMS值都低于此阈值的区域将被视为静音。如果音频有噪音,增加此值。

*Minimum Length (最小长度):以默认值5000(毫秒为单位)为例,简单来说就是切割后的每个音频片段都不少于5秒。

*Minimum Interval(最小间距):以默认值300(毫秒为单位)为例,简单来说就是少于0.3秒的静音不会被切割丢掉,超过0.3秒的静音部分才丢掉。如果音频仅包含短暂的中断,请将此值设置得更小。此值越小,此应用程序可能生成的切片音频剪辑就越多。请注意,此值必须小于minimum length 且大于 hop size。

*Hop Size(跳跃步长):每个RMS帧的长度(说白了就是精度),以毫秒为单位。增加此值将提高切片Q的精度,但会降低处理速度。默认值为10。

*Maximum Silence Length (最大静音长度):在切片音频周围保持的最大静音长度,以毫秒为单位。根据需要调整此值。请注意,设置此值并不意味着切片音频中的静音部分具有完全给定的长度。如上所述,该算法将搜索要切片的最佳位置。默认值为1000。

GitHub上的其他相关项目:

https://github.com/svc-develop-team/so-vits-svc


https://github.com/coqui-ai/TTS


一个基于VITS的简单易用的变声框架

https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI

基于SoVits4的维尼熊歌声转换 - a Hugging Face Space by pitaogou
https://huggingface.co/spaces/pitaogou/Qingfeng-Sing-sovits4

一个带web界面的声音克隆工具,使用你的音色或任意声音来录制音频       

CV声音克隆工具

这是一个声音克隆工具,可使用任何人类音色,将一段文字合成为使用该音色说话的声音,或者将一个声音使用该音色转换为另一个声音。

使用非常简单,没有N卡GPU也可以使用,下载预编译版本,双击 app.exe 打开一个web界面,鼠标点点就能用。

支持 中文英文日语韩语 4种语言,可在线从麦克风录制声音。

为保证合成效果,建议录制时长5秒到20秒,发音清晰准确,不要存在背景噪声。

英文效果很棒,中文效果还凑合。

https://github.com/jianchang512/clone-voice



关注中国七七,中国七七可爱喵~🐱




评论

此博客中的热门博文

包包日历V3.0

共产五虎