ChatTTS：最像真人的文生语音工具是怎样炼成的？

大家应该都刷到过AI配音的电影解说：注意看，这个男人叫小帅……这些同款音色多数来自微软Azure文字转语音，但是听上去往往“一耳假”，AI感强烈。

现在如果告诉你，有一款新的AI工具ChatTTS，你只需输入一段文字，AI就能声情并茂地全文读出来，不仅支持中英文混合，还能恰到好处地加入语气词和停顿，完胜Azure，那么你想不想试试呢？

ChatTTS是何方神圣？

顾名思义，ChatTTS是一款开源的文本转语音（TTS）工具，特别适用于大语言模型（LLM）助手对话任务、对话语音生成以及视频介绍等应用场景。

它采取了目前最先进的深度学习算法，在音调、情感表达、多语言识别方面极其出色，可以生成非常逼真的语音，不仅开源，而且还在不断迭代升级。

ChatTTS有何魅力？

在哪里玩ChatTTS？

ChatTTS现已上线东方超算AI应用商店（访问网址appmall.ai），您可以查看《手把手教你玩转AppMall》，全流程了解如何安装开启站内应用。

ChatTTS怎么操作？

（1）输入文本

ChatTTS的界面也非常简单，首先输入需要转换的文本，或者选择下方【导入TXT】即可便捷导入长文本。

我们先测试中英文混说流畅度，在一段中文里夹杂一些英文，看ChatTTS的适应性如何，毕竟有些语音生成大模型甚至不能很好地读出“AI”。

从默认音色的流畅度来看，中英文的混合生成确实没有痕迹，但是中文符号短剧方便，比如低至约2.3元/小时，略显生涩。

（2）调节参数

目前上线AppMall的版本为简化版，不支持语音克隆，但是系统自带音色多达35款，可以精细挑选最适合自身需求的音色。

其他参数方面：

音色值: 用于初始化随机数生成器的种子值。设置相同的种子值可以确保重复生成一致的语音，便于实验和调试。
Text Seed: 类似于音色值，在文本生成阶段用于初始化随机数生成器的种子值。
Prompt：生成结果的prompt中，你会发现多出了这样[]的符号，它是表示一些预期、停顿以及笑声之类的控制。[oral_(0-9)]: 控制口音强度；[laugh_(0-2)]:控制笑声；[break_(0-7)]: 控制停顿时间。
Refine Text: 此选项可以对输入文本进行优化或修改，提升语音的自然度和可理解性。
Temperature️: 控制输出的随机性。数值越高，生成的语音越可能包含意外变化；数值较低则趋向于更平稳的输出。
Top_P: 核采样策略，定义概率累积值，模型将只从这个累积概率覆盖的最可能的词中选择下一个词。
Top_K: 限制模型考虑的可能词汇数量，设置为一个具体数值，模型将只从这最可能的 K 个词中选择下一个词。

ChatTTS比较好的一点就是会用列表形式展现和保留每次生成的音频文件，方便用户来回比对和进行微调、筛选。也提供了【清理所有wav文件】按钮，在任务操作需要一键清空时，十分方便。

还在等什么，快来AppMall访问传送门，一键开启ChatTTS之旅吧~