AI语音克隆:模仿任何人你只需要几步

语音克隆,这一神秘而又引人入胜的技术,正以前所未有的速度崭露头角。无论是想要在数字世界中复制自己的声音,还是渴望重听逝去亲人的话语,语音克隆都为我们打开了一扇通往声音世界的新门径;遵循白嫖免费的原则,本期还是使用开源项目

使用的是目前比较流行的AI语音克隆工具-GPT-SoVITS,无论你是折腾侠,还是技术小白,本文Jay同学将用最简单的语言和图文教程教会你,只需要10步快速入门这款开源项目,在开始之前,先试听一下Jay利用周杰伦的素材训练出来的成果

项目介绍

GPT-SoVITS

由RVC创始人RVC-Boss与AI声音转换技术专家Rcell共同开发的一款跨语言TTS克隆项目,这个项目被称为“最强大中文声音克隆项目”,它可以实现零样本和少样本的语音克隆,以及跨语言的文本到语音转换。它具有数据量少、质量高、灵活性强、易用性高等优点,可以应用于多种场景;自上线以来,截至目前github上的Stars数已达到9.4K

少样本语音克隆:只需1分钟的训练数据,就可以对模型进行微调,提高语音的相似性和真实感。只需几步操作,就可以创建自己的TTS模型

跨语言支持:可以在不同于训练数据集的语言中进行推理,目前支持英语、日语和中文。可以实现多语言的语音合成和翻译

WebUI工具:集成了语音伴奏分离、自动训练集分割、中文ASR和文本标注等工具,帮助初学者创建训练数据集和GPT/SoVITS模型

准备工作

一台电脑,CPU无太高要求,显卡有条件请选择4060+6G以上,当然Jay用的4G+4050同样成功训练,就是中途一直报错,需要不断调整训练参数

如果配置不够或者想要更好的训练效果,可以租用云服务器云端部署训练,这里不作为本期重点,自行搜索教程

项目地址:
https://github.com/RVC-Boss/GPT-SoVITS
官方教程:
https://www.bilibili.com/video/BV12g4y1m7Uw/
官方文档:
https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e
云端训练:
https://www.bilibili.com/video/BV1sg4y127GD?t=12.0
如果访问Github有困难,可以使用作者发布的备用地址:
https://www.icloud.com.cn/iclouddrive/056y_Xog_HXpALuVUjscIwTtg#GPT-SoVITS_Models

教程开始

1、启动项目:点击go-webui.bat运行代码,需要一两分钟,等待浏览器弹出UI界面

2、下载素材:输入你想要模仿的人物音色,我以周杰伦为例,先到网上找素材,选择一个纯人声的采访片段,下载下来,接着提取音频,用AU或者其他软件消除噪音,确保人声干净透彻

3、切割音频:复制粘贴音频文件目录,请记得带文件名,直接复制地址栏目录不完整,参考我下面地址;然后直接切割语音

切割后如果没有修改地址一般会输出在项目文件的output\slicer_opt中

4、批量ASR:按照图中说明,保证切割的音频和批量ASR的地址一致

点击开始批量ASR,直到训练完成,这里一般只需要十几秒即可完成

5、文本校对(可选择性跳过):完成后为确保训练的效果,由于识别的误差和素材的多样性,这里一般会针对切割后的音频文件进行校对,确保训练效果最佳;也可以直接忽略,效果同样影响不大;list文件一般在output\asr_opt中,双击使用文本编辑器打开即可

也可以点击打开打标WebUI,可视化进行校对,点击开启后需要等待一段时间自动弹出窗口

校对窗口如图,如果对训练要求不高,可以忽略这部分;实测素材好,声音清晰一般识别都很准

6、开始训练:上述操作完成后直接点击1-GPT-sovits-tts进行训练模式

开始训练前请替换下面两个路径,分别是你的标注文件,后缀为list,目录在output\asr_opt;另一个是裁剪的音频,默认目录在output\slicer_opt;替换后其余参数如果没有其他要求,默认即可,直接开始一键三连进行训练,直到显示训练完成

7、模型微调:点击1-B微调训练,注意是下方的栏目选项,不要点错了

以此按图所示进行训练,如果配置足够其余参数保持默认即可,如果提示Runtime erroer等错误,大概率就是爆显存了,尝试去调整每张显卡的batch_size数值再次尝试,如图:
这里我爆显存了,给个参考就是调整每张显卡的batch_size数值到1,训练轮数可以调到8以下多试试,当然肯定会对你训练效果有影响

8、IC-推理:点击栏目上的IC-推理选项,先刷新模型,然后选择刚才生成的模型,开启TTS模型推理窗口开启

9、如果没有出现模型文件,说明你训练失败,训练成功的以下两个目录会出现对应模型文件

还有一种情况就是界面显示训练结束,但是没有模型文件,依然属于训练失败,可以查看一下运行端口界面提示的报错,如果通过调上面的参数还是不行,说明配置是真的不行了

10、语音合成:完成上述步骤,接下来就是合成你想要的语音了,很简单,直接参考图中说明即可;需要强调,如果合成效果不行,尝试多点击几次合成语音,每次合成的效果都会有较大差别

消息盒子
# 您有18条未读消息 #
# 您需要首次评论以获取消息 #
# 您需要首次评论以获取消息 #

只显示最新10条未读和已读信息

//鼠标特效代码