AI声音克隆 AI Voice Clone
这是我目前测试出来声音克隆效果最好的一种方式
对电脑配置没有高要求
首先自行获取音频文件
Ultimate Vocal Remover用来分离人声和伴奏,消除混响和声
https://ultimatevocalremover.com/
格式工厂FormatFactory,用来快速转换文件格式
http://formatfactory.org/CN/download.html
Audio Slicer
https://github.com/flutydeer/audio-slicer
新建4个文件夹,1号,2号,3号,4号
把音频文件放到1号文件夹
打开Ultimate Vocal Remover
点击Select Input
选择你在1号文件夹内放的音频文件
点击Select Output
选择2号文件夹(分离人声和伴奏)
选择正确的文件格式:WAV,FLAC,MP3
CHOOSE PROCESS METHOD,选择Demucs
CHOOSE STEM(S),选择Vocals(人声)
勾选GPU Conversion
点击Start Processing
耐心等待一段时间
点击Select Input,选择2号文件夹中_(Vocals)结尾的文件
点击Select Output
选择3号文件夹(消除混响和声)
CHOOSE PROCESS METHOD,选择VR Architecture
WINDOW SIZE,选择320(最小的那个)
AGGRESSION SETTING,选择5
CHOOSE VR MODEL,选择1_HP-UVR
勾选GPU Conversion
点击Start Processing
耐心等待一段时间
*你也可以下载其他算法模型,请自行了解
打开Audio Slicer音频切分(也就是slicer-gui.exe)
放入3号文件夹中以_(Vocals)_(Vocals)结尾的文件(必须要.wav格式)
右侧Minimum Length(ms),输入30000(也就是30秒)
点击Browse...,选择4号文件夹
点击右下角Start
打开4号文件夹检查一下,每段音频不能大于45秒
用浏览器打开网址https://covers.ai/ai-song-generator
我的手机的读写的速度比电脑慢,建议使用电脑操作
Choose or upload a song
Select a voice
等待加载完毕,点击左上角Politicians,列表拉到最底下,选择Xi JinpinGPT AI FAYK CN(没错习近平名字里少个g)
输入你的邮箱(会把文件链接发到你的邮箱,这样就不会弄丢了)
打勾✔
点击Let's go!
稍等一段时间
打开你的邮箱
打开链接
耐心等待加载完毕
点击Download
点击Get Video(免费用户只能选择这个)
这个网站理论上每天只能克隆两次,每次最多45秒
但是我们可以使用浏览器插件白嫖次数
比如我用Microsoft Edge浏览器,安装Clear Site Data插件,选择All Web Sites,双击Clear Site Data
*Threshold(阈值):以dB(分贝)表示的 RMS阈值。所有 RMS值都低于此阈值的区域将被视为静音。如果音频有噪音,增加此值。
*Minimum Length (最小长度):以默认值5000(毫秒为单位)为例,简单来说就是切割后的每个音频片段都不少于5秒。
*Minimum Interval(最小间距):以默认值300(毫秒为单位)为例,简单来说就是少于0.3秒的静音不会被切割丢掉,超过0.3秒的静音部分才丢掉。如果音频仅包含短暂的中断,请将此值设置得更小。此值越小,此应用程序可能生成的切片音频剪辑就越多。请注意,此值必须小于minimum length 且大于 hop size。
*Hop Size(跳跃步长):每个RMS帧的长度(说白了就是精度),以毫秒为单位。增加此值将提高切片Q的精度,但会降低处理速度。默认值为10。
*Maximum Silence Length (最大静音长度):在切片音频周围保持的最大静音长度,以毫秒为单位。根据需要调整此值。请注意,设置此值并不意味着切片音频中的静音部分具有完全给定的长度。如上所述,该算法将搜索要切片的最佳位置。默认值为1000。
GitHub上的其他相关项目:
https://github.com/svc-develop-team/so-vits-svc
https://github.com/coqui-ai/TTS
一个基于VITS的简单易用的变声框架
https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
基于SoVits4的维尼熊歌声转换 - a Hugging Face Space by pitaogou一个带web界面的声音克隆工具,使用你的音色或任意声音来录制音频
CV声音克隆工具
这是一个声音克隆工具,可使用任何人类音色,将一段文字合成为使用该音色说话的声音,或者将一个声音使用该音色转换为另一个声音。
使用非常简单,没有N卡GPU也可以使用,下载预编译版本,双击 app.exe 打开一个web界面,鼠标点点就能用。
支持 中文、英文、日语、韩语 4种语言,可在线从麦克风录制声音。
为保证合成效果,建议录制时长5秒到20秒,发音清晰准确,不要存在背景噪声。
英文效果很棒,中文效果还凑合。
https://github.com/jianchang512/clone-voice
评论
发表评论