AI语音克隆：模仿任何人你只需要几步

2024年3月30日 471

教程

语音克隆，这一神秘而又引人入胜的技术，正以前所未有的速度崭露头角。无论是想要在数字世界中复制自己的声音，还是渴望重听逝去亲人的话语，语音克隆都为我们打开了一扇通往声音世界的新门径；遵循白嫖免费的原则，本期还是使用开源项目

使用的是目前比较流行的AI语音克隆工具-GPT-SoVITS，无论你是折腾侠，还是技术小白，本文Jay同学将用最简单的语言和图文教程教会你，只需要10步快速入门这款开源项目，在开始之前，先试听一下Jay利用周杰伦的素材训练出来的成果

项目介绍

GPT-SoVITS

由RVC创始人RVC-Boss与AI声音转换技术专家Rcell共同开发的一款跨语言TTS克隆项目，这个项目被称为“最强大中文声音克隆项目”，它可以实现零样本和少样本的语音克隆，以及跨语言的文本到语音转换。它具有数据量少、质量高、灵活性强、易用性高等优点，可以应用于多种场景；自上线以来，截至目前github上的Stars数已达到9.4K

少样本语音克隆：只需1分钟的训练数据，就可以对模型进行微调，提高语音的相似性和真实感。只需几步操作，就可以创建自己的TTS模型

跨语言支持：可以在不同于训练数据集的语言中进行推理，目前支持英语、日语和中文。可以实现多语言的语音合成和翻译

WebUI工具：集成了语音伴奏分离、自动训练集分割、中文ASR和文本标注等工具，帮助初学者创建训练数据集和GPT/SoVITS模型

准备工作

一台电脑，CPU无太高要求，显卡有条件请选择4060+6G以上，当然Jay用的4G+4050同样成功训练，就是中途一直报错，需要不断调整训练参数

如果配置不够或者想要更好的训练效果，可以租用云服务器云端部署训练，这里不作为本期重点，自行搜索教程

项目地址：
https://github.com/RVC-Boss/GPT-SoVITS
官方教程：
https://www.bilibili.com/video/BV12g4y1m7Uw/
官方文档：
https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e
云端训练：
https://www.bilibili.com/video/BV1sg4y127GD?t=12.0
如果访问Github有困难，可以使用作者发布的备用地址：
https://www.icloud.com.cn/iclouddrive/056y_Xog_HXpALuVUjscIwTtg#GPT-SoVITS_Models

教程开始

1、启动项目：点击go-webui.bat运行代码，需要一两分钟，等待浏览器弹出UI界面

2、下载素材：输入你想要模仿的人物音色，我以周杰伦为例，先到网上找素材，选择一个纯人声的采访片段，下载下来，接着提取音频，用AU或者其他软件消除噪音，确保人声干净透彻

3、切割音频：复制粘贴音频文件目录，请记得带文件名，直接复制地址栏目录不完整，参考我下面地址；然后直接切割语音

切割后如果没有修改地址一般会输出在项目文件的output\slicer_opt中

4、批量ASR：按照图中说明，保证切割的音频和批量ASR的地址一致

点击开始批量ASR，直到训练完成，这里一般只需要十几秒即可完成

5、文本校对（可选择性跳过）：完成后为确保训练的效果，由于识别的误差和素材的多样性，这里一般会针对切割后的音频文件进行校对，确保训练效果最佳；也可以直接忽略，效果同样影响不大；list文件一般在output\asr_opt中，双击使用文本编辑器打开即可

也可以点击打开打标WebUI，可视化进行校对，点击开启后需要等待一段时间自动弹出窗口

校对窗口如图，如果对训练要求不高，可以忽略这部分；实测素材好，声音清晰一般识别都很准

6、开始训练：上述操作完成后直接点击1-GPT-sovits-tts进行训练模式

开始训练前请替换下面两个路径，分别是你的标注文件，后缀为list，目录在output\asr_opt；另一个是裁剪的音频，默认目录在output\slicer_opt；替换后其余参数如果没有其他要求，默认即可，直接开始一键三连进行训练，直到显示训练完成

7、模型微调：点击1-B微调训练，注意是下方的栏目选项，不要点错了

以此按图所示进行训练，如果配置足够其余参数保持默认即可，如果提示Runtime erroer等错误，大概率就是爆显存了，尝试去调整每张显卡的batch_size数值再次尝试，如图：
这里我爆显存了，给个参考就是调整每张显卡的batch_size数值到1，训练轮数可以调到8以下多试试，当然肯定会对你训练效果有影响

8、IC-推理：点击栏目上的IC-推理选项，先刷新模型，然后选择刚才生成的模型，开启TTS模型推理窗口开启

9、如果没有出现模型文件，说明你训练失败，训练成功的以下两个目录会出现对应模型文件

还有一种情况就是界面显示训练结束，但是没有模型文件，依然属于训练失败，可以查看一下运行端口界面提示的报错，如果通过调上面的参数还是不行，说明配置是真的不行了

10、语音合成：完成上述步骤，接下来就是合成你想要的语音了，很简单，直接参考图中说明即可；需要强调，如果合成效果不行，尝试多点击几次合成语音，每次合成的效果都会有较大差别

Comments | NOTHING

空空如也！

AI达人收藏夹里必备的50个咨询网站和博客(转自新智元)

WordPress建站实用插件和辅助工具推荐

源社区终于搭建好了，一个专门分享开源项目的论坛

国内外优质小众WordPress主题推荐

建站常见问题和解决办法

腾讯域名解析阿里服务器并使用阿里OSS实现网站动静态分离