在 AI 技术高速迭代的今天,语音合成早已突破”机械朗读“的局限 —— 从短视频创作者的虚拟配音、游戏角色的个性化声线,到智能客服的自然交互,GPT-SoVITS正凭借其强大的多模态融合能力,成为实现”AI 声音克隆“与“情感化语音生成”的核心技术之一。
然而,面对复杂的模型架构、繁琐的训练流程和频繁的版本迭代,新手常陷入”原理懂了但实操卡壳“的困境,进阶者也需要突破“模型泛化能力不足”和“推理效率低下”等瓶颈
GPT-SoVITS简介
GPT-SoVITS 是基于深度学习的语音合成框架,通过整合 GPT(Generative Pre-trained Transformer) 的自然语言理解能力与 SoVITS(Soft Voice Isolation and Timbre Synthesis) 的声纹特征建模技术,实现了「文本 – 语音」的高保真映射与个性化声音克隆。其核心优势在于:
- 多模态融合:支持文本、声纹、情感标签等多维度输入,生成兼具语义理解与情感表达的自然语音;
- 低资源适配:通过少量样本即可完成声线迁移,降低专业配音的门槛;
- 场景化定制:可针对短视频创作、智能客服、有声书制作等场景优化韵律与音色,满足工业化部署需求。
GPT-SoVITS使用方法
GPT-SoVITS现已上线东方超算AI应用商店(访问网址appmall.com),使用价格低至2.3元/小时,平台按分钟数实际计费,比如使用10分钟,那么只会收费约0.4元。
您可以查看《手把手教你玩转AppMall》,了解安装开启站内应用全流程。

记住用户名“admin”,点击【复制】按钮复制密码,点击【进入应用】就可以登录使用啦。
操作步骤
步骤分为0-前置数据集获取工具,1-GPT-SOVITS-TTS,1A-训练集格式化工具,1B-微调训练,1C-推理
0-前置数据集获取工具
人声伴奏需要分离的话,需要开启UVR5。本次实操使用人声无伴奏则不开启,如开启需要占用大量的gpu
设置输入输出音频路径-点击开始切割-等待10秒后切割完成

在文件管理中input和ouput文件夹中输入文件和查看分割后文件


开启语言降噪,离线批量ASR,和打标webui。在输出信息框中显示完成则可进行下一步,其他参数无需改动。

1-GPT-SOVITS-TTS
1A-训练集格式化工具
键入本次实验名称

如果咱们只有1张显卡,在gpu卡号处填写0-0。,其他参数无需改动

点击一键三连,成功后在文件中能看到训练集格式化文件:
查看文件中,ai_app >logs>appmall-one,查看是否有3、5、4、2、6文件

1B-微调训练
此类训练一般在几分钟到10分钟不等

1C-推理
选择默认模型,点击刷新。点击开启tts推理webui。

开启后,打开ai空间,打开SSH,查看ip


登入推理webui,浏览器访问上图中的:58.242.xxx.xxx:9872
如图所示,上传音频,填写音频文本。输入要合成的文本

参考音频
需合成的文本
A I应用商店,提供即时交付、按需付费的人工智能应用服务
点击运行

让我们一起看看效果
从生成的音频中可以看出停顿和切词上的设置需要改动一下就可以了。你也快来试一试吧