这是我目前测试出来声音克隆效果最好的一种方式

对电脑配置没有高要求

首先自行获取音频文件

Ultimate Vocal Remover用来分离人声和伴奏，消除混响和声

https://ultimatevocalremover.com/

格式工厂FormatFactory，用来快速转换文件格式

http://formatfactory.org/CN/download.html

Audio Slicer

https://github.com/flutydeer/audio-slicer

新建4个文件夹，1号，2号，3号，4号

把音频文件放到1号文件夹

打开Ultimate Vocal Remover

点击Select Input

选择你在1号文件夹内放的音频文件

点击Select Output

选择2号文件夹（分离人声和伴奏）

选择正确的文件格式：WAV，FLAC，MP3

CHOOSE PROCESS METHOD，选择Demucs

CHOOSE STEM(S)，选择Vocals（人声）

勾选GPU Conversion

点击Start Processing

耐心等待一段时间

点击Select Input，选择2号文件夹中_(Vocals)结尾的文件

点击Select Output

选择3号文件夹（消除混响和声）

CHOOSE PROCESS METHOD，选择VR Architecture

WINDOW SIZE，选择320（最小的那个）

AGGRESSION SETTING，选择5

CHOOSE VR MODEL，选择1_HP-UVR

勾选GPU Conversion

点击Start Processing

耐心等待一段时间

*你也可以下载其他算法模型，请自行了解

打开Audio Slicer音频切分（也就是slicer-gui.exe）

放入3号文件夹中以_(Vocals)_(Vocals)结尾的文件（必须要.wav格式）

右侧Minimum Length（ms），输入30000（也就是30秒）

点击Browse...，选择4号文件夹

点击右下角Start

打开4号文件夹检查一下，每段音频不能大于45秒

用浏览器打开网址https://covers.ai/ai-song-generator

我的手机的读写的速度比电脑慢，建议使用电脑操作

Choose or upload a song

Select a voice

等待加载完毕，点击左上角Politicians，列表拉到最底下，选择Xi JinpinGPT AI FAYK CN（没错习近平名字里少个g）

输入你的邮箱（会把文件链接发到你的邮箱，这样就不会弄丢了）

打勾✔

点击Let's go!

稍等一段时间

打开你的邮箱

打开链接

耐心等待加载完毕

点击Download

点击Get Video（免费用户只能选择这个）

这个网站理论上每天只能克隆两次，每次最多45秒

但是我们可以使用浏览器插件白嫖次数

比如我用Microsoft Edge浏览器，安装Clear Site Data插件，选择All Web Sites，双击Clear Site Data

*Threshold（阈值)：以dB（分贝)表示的 RMS阈值。所有 RMS值都低于此阈值的区域将被视为静音。如果音频有噪音，增加此值。

*Minimum Length (最小长度):以默认值5000(毫秒为单位）为例，简单来说就是切割后的每个音频片段都不少于5秒。

*Minimum Interval(最小间距):以默认值300（毫秒为单位）为例，简单来说就是少于0.3秒的静音不会被切割丢掉，超过0.3秒的静音部分才丢掉。如果音频仅包含短暂的中断，请将此值设置得更小。此值越小，此应用程序可能生成的切片音频剪辑就越多。请注意，此值必须小于minimum length 且大于 hop size。

*Hop Size（跳跃步长）：每个RMS帧的长度(说白了就是精度），以毫秒为单位。增加此值将提高切片Q的精度，但会降低处理速度。默认值为10。

*Maximum Silence Length (最大静音长度)：在切片音频周围保持的最大静音长度，以毫秒为单位。根据需要调整此值。请注意，设置此值并不意味着切片音频中的静音部分具有完全给定的长度。如上所述，该算法将搜索要切片的最佳位置。默认值为1000。

https://github.com/coqui-ai/TTS

一个基于VITS的简单易用的变声框架

https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI

基于SoVits4的维尼熊歌声转换 - a Hugging Face Space by pitaogou

https://huggingface.co/spaces/pitaogou/Qingfeng-Sing-sovits4

一个带web界面的声音克隆工具，使用你的音色或任意声音来录制音频

CV声音克隆工具

这是一个声音克隆工具，可使用任何人类音色，将一段文字合成为使用该音色说话的声音，或者将一个声音使用该音色转换为另一个声音。

使用非常简单，没有N卡GPU也可以使用，下载预编译版本，双击 app.exe 打开一个web界面，鼠标点点就能用。

支持中文、英文、日语、韩语 4种语言，可在线从麦克风录制声音。

为保证合成效果，建议录制时长5秒到20秒，发音清晰准确，不要存在背景噪声。

英文效果很棒，中文效果还凑合。

https://github.com/jianchang512/clone-voice