2noise/ChatTTS

A generative speech model for daily dialogue.

agentchatchatgptchatttschinesechinese-languageenglishenglish-languagegptllmllm-agentnatural-language-inferencepythontext-to-speechtorchtorchaudiotts

GAI 中文摘要

ChatTTS 是一款专为对话场景设计的生成式语音合成模型，主要针对大语言模型助手等交互需求进行深度优化。它能够生成极其自然且富有表现力的语音，有效提升了机器交互的拟人化体验。

支持中英文双语的高质量语音合成，具备出色的多说话人交互能力。

能够精准预测并控制语音中的韵律细节，包括笑声、停顿和语气词等非语言元素。

在自然语言韵律表现上优于大多数开源语音合成模型，为学术研究与二次开发提供坚实的技术基础。

支持流式音频生成，满足实时对话应用的需求。

该项目适用于大语言模型开发者、语音合成技术研究人员，以及需要构建高拟真语音对话系统的产品开发者。常见使用场景包括构建交互式 AI 助理、自动化对话机器人或需要高度自然感语音播报的应用程序。

⭐

39.4k

Stars

🔱

4.2k

Forks

👁

207

Watchers

📋

Issues

PythonAGPL-3.0创建于 2024/5/27更新于今天

在 GitHub 上查看访问主页

README

由 Gemini 翻译整理

ChatTTS

专为日常对话设计的生成式语音模型。

简介

[!Note] 本仓库包含算法架构及一些简单的示例。

[!Tip] 如需了解社区维护的扩展终端用户产品，请参考索引仓库 Awesome-ChatTTS。你可以在此处查看代码库的架构可视化图。

ChatTTS 是一款专门为 LLM 助手等对话场景设计的文本转语音（TTS）模型。

支持的语言

英语
中文
即将推出...

特色亮点

你可以参考 Bilibili 上的这段视频 获取详细说明。

对话式 TTS：ChatTTS 针对基于对话的任务进行了优化，实现了自然且富有表现力的语音合成，并支持多说话人，促进互动式对话。
细粒度控制：该模型能够预测并控制细粒度的韵律特征，包括笑声、停顿和插入语等。
更好的韵律：在韵律方面，ChatTTS 超越了大多数开源 TTS 模型。我们提供预训练模型以支持进一步的研究与开发。

数据集与模型

[!Important] 发布模型仅供学术研究使用。

主模型在超过 10 万小时的中英文音频数据上进行训练。
HuggingFace 上的开源版本是未经 SFT（监督微调）的 4 万小时预训练模型。

开发路线图

开源 4 万小时基础模型及 spk_stats 文件。
流式音频生成。
开源 DVAE 编码器及零样本（zero-shot）推理代码。
多情感控制。
ChatTTS.cpp（欢迎在 2noise 组织下创建新仓库）

许可证

代码

代码基于 AGPLv3+ 许可证发布。

模型

模型基于 CC BY-NC 4.0 许可证发布。它旨在用于教育和研究用途，不得用于任何商业或非法目的。作者不对信息的准确性、完整性或可靠性作保证。本仓库中使用的信息和数据仅用于学术和研究目的。数据来源于公开渠道，作者不对数据主张任何所有权或版权。

免责声明

ChatTTS 是一个强大的文本转语音系统。然而，以负责任和合乎道德的方式利用这项技术至关重要。为了限制 ChatTTS 的滥用，我们在训练 4 万小时模型时加入了一定数量的高频噪声，并尽可能通过 MP3 格式压缩音频质量，以防止恶意用户将其用于犯罪目的。同时，我们已经在内部训练了一个检测模型，并计划在未来将其开源。

联系方式

欢迎提交 GitHub issues/PRs。

正式咨询

有关模型和路线图的正式咨询，请通过 open-source@2noise.com 联系我们。

在线交流

1. QQ 群

1 群, 808364215
2 群, 230696694
3 群, 933639842
4 群, 608667975

2. Discord 服务器

点击此处加入。

入门指南

克隆仓库

git clone https://github.com/2noise/ChatTTS
cd ChatTTS

安装依赖

1. 直接安装

pip install --upgrade -r requirements.txt

2. 通过 conda 安装

conda create -n chattts python=3.11
conda activate chattts
pip install -r requirements.txt

可选：安装 vLLM（仅限 Linux）

pip install safetensors vllm==0.2.7 torchaudio

不推荐：如果使用 NVIDIA GPU 请安装 TransformerEngine（仅限 Linux）

[!Warning] 请勿安装！ TransformerEngine 的适配工作目前正在开发中，暂时无法正常运行。仅限安装。