语音合成软件制作全攻略,小白也能轻松上手,快来试试看!

大家好,我是星哥,今天为大家介绍两款声音克隆和文本转语音的软件:ChatTTS和Spark-TTS。这两款软件都有一键安装包,无需复杂的配置,就可以在本地轻松体验声音的魅力。

一、ChatTTS介绍及安装部署

ChatTTS是一款专为对话场景设计的语音生成模型,特别适用于大型语言模型(LLM)助手的对话任务,以及诸如对话式音频和视频介绍等应用。它支持中文和英文,使用大量数据进行训练,表现出高质量和自然度的语音合成。

安装ChatTTS有三种方式,推荐使用Docker compose安装ChatTTS-ui。以下是详细步骤:

1. 从GitHub克隆项目仓库。

2. 启动Docker容器并查看初始化日志。

3. 访问ChatTTS WebUI,输入一段文本,即可生成语音。

还提供了一键安装包供用户选择,无需繁琐的手动安装过程。

二、Spark-TTS介绍及安装步骤

Spark-TTS是一款备受瞩目的语音克隆开源项目,由多所高校联合研发。它支持中英文语音克隆,安装部署过程并不复杂。

1. 下载Spark-TTS源码并解压到指定文件夹。

2. 创建虚拟环境并安装依赖。

3. 下载模型并配置科学上网环境。

4. 启动Web界面并进行语音克隆测试。

Spark-TTS还提供了与F5-TTS相似的接口,可以方便地在pyVideotrans软件中使用。

三、使用注意事项

1. 在安装和使用过程中,需要注意文件夹命名使用英文或数字,避免中文和权限问题。

2. 在执行终端命令时,要确保已激活虚拟环境,并检查命令行前是否存在(venv)。

3. Python代码缩进对齐需注意,建议使用专业的代码编辑器打开文件。

ChatTTS和Spark-TTS两款软件为声音克隆和文本转语音提供了便捷高效的解决方案。无论是对于普通用户还是开发者来说,都是不错的选择。创建“Generate2”按钮的克隆版本,并将其命名为 `generate_buttom_clone2`,设置其初始可见性为隐藏状态(`visible=False`)。当该按钮被点击时,将触发以下操作:

调用 `basic_tts` 功能,接收以下输入参数:

`text_input`:文本输入

`prompt_text_input`:提示文本输入

`prompt_wav_upload`:提示语音上传

再次接收 `text_input`,这次需要两次相同的输入

对应的输出参数包括:

`audio_output`:音频输出

`prompt_text_input`:带有提示的文本输出

并设置 API 名称(`api_name=”basic_tts”`)以便进行识别。

完成代码编写后,保存文件并重新启动 `webui.py`。在进行启动时,请确保处于虚拟环境(venv)中。将 127.0.0.1:7860 地址填写至 pyVideotrans 软件的相应设置中,具体路径为 “菜单” -> “TTS 设置” -> “F5-TTS” 的 API 地址栏。完成以上设置后,即可开始使用相关功能。

ChatTTS 和 Spark-TTS 是两款出色的免费开源声音克隆和文本转语音软件,感兴趣的朋友们不妨尝试一下。创作不易,感谢大家耐心阅读至此。请点赞、分享给更多的朋友,并关注“星哥玩云”。这里将不断分享干货,轻松有趣的技术交流也正在进行中。让我们一起成长,共同探索技术的世界吧!