© 2026FindAgent  · @simprr
返回列表
2

2noise/ChatTTS

A generative speech model for daily dialogue.

agentchatchatgptchatttschinesechinese-languageenglishenglish-languagegptllmllm-agentnatural-language-inferencepythontext-to-speechtorchtorchaudiotts
⭐

39.0k

Stars

🔱

4.2k

Forks

👁

207

Watchers

📋

66

Issues

PythonAGPL-3.0创建于 2024/5/27更新于 今天
在 GitHub 上查看访问主页
README
由 Gemini 翻译整理

ChatTTS

专为日常对话设计的生成式语音模型。

Licence PyPI

Huggingface Open In Colab Discord

English | 简体中文 | 日本語 | Русский | Español | Français | 한국어

简介

[!Note] 本仓库包含算法基础架构及一些简单的示例。

[!Tip] 如需查找扩展的终端用户产品,请参考社区维护的索引仓库 Awesome-ChatTTS。 您可以在此处查看代码库的图示。

ChatTTS 是一款专为 LLM 助手等对话场景设计的文本转语音(TTS)模型。

支持的语言

  • 英语
  • 中文
  • 即将推出...

核心亮点

您可以参考 哔哩哔哩上的这段视频 获取详细说明。

  1. 对话式 TTS:ChatTTS 针对对话任务进行了优化,能够实现自然且富有表现力的语音合成。它支持多说话人,便于进行交互式对话。
  2. 细粒度控制:该模型可以预测并控制细粒度的韵律特征,包括笑声、停顿和插入语。
  3. 出色的韵律:ChatTTS 在韵律方面超越了大多数开源 TTS 模型。我们提供预训练模型以支持进一步的研究与开发。

数据集与模型

[!Important] 所发布的模型仅供学术研究使用。

  • 主模型使用超过 10 万小时的中英文音频数据进行训练。
  • HuggingFace 上的开源版本是未经 SFT(监督微调)的 4 万小时预训练模型。

路线图

  • 开源 4 万小时基础模型和 spk_stats 文件。
  • 流式音频生成。
  • 开源 DVAE 编码器和零样本(zero-shot)推理代码。
  • 多情感控制。
  • ChatTTS.cpp(欢迎在 2noise 组织下创建新仓库)

许可协议

代码许可

代码采用 AGPLv3+ 协议发布。

模型许可

模型采用 CC BY-NC 4.0 协议发布。仅限教育和研究用途,不得用于任何商业或非法目的。作者不对信息的准确性、完整性或可靠性做出保证。本仓库使用的信息和数据仅用于学术和研究目的。数据取自公开来源,作者不对数据声明任何所有权或版权。

免责声明

ChatTTS 是一个强大的文本转语音系统。然而,负责任且合乎道德地使用该技术至关重要。为了限制 ChatTTS 的滥用,我们在 4 万小时模型的训练过程中添加了少量高频噪声,并尽可能通过 MP3 格式压缩音频质量,以防止不法分子将其用于犯罪目的。同时,我们内部训练了一个检测模型,并计划在未来将其开源。

联系方式

欢迎提交 GitHub Issues/PR。

正式咨询

有关模型和路线图的正式咨询,请通过 open-source@2noise.com 与我们联系。

在线交流

1. QQ 交流群
  • 1群:808364215
  • 2群:230696694
  • 3群:933639842
  • 4群:608667975
2. Discord 服务器

点击此处加入。

快速开始

克隆仓库

git clone https://github.com/2noise/ChatTTS
cd ChatTTS

安装依赖

1. 直接安装

pip install --upgrade -r requirements.txt

2. 通过 conda 安装

conda create -n chattts python=3.11
conda activate chattts
pip install -r requirements.txt

可选:安装 vLLM(仅限 Linux)

pip install safetensors vllm==0.2.7 torchaudio

不推荐的可选安装:若使用 NVIDIA GPU,安装 TransformerEngine(仅限 Linux)

[!Warning] 请勿安装! TransformerEngine 的适配目前仍在开发中,当前无法正常运行。 仅供安装测试使用。

贡献者
fglaYlyca6
项目信息
默认分支main
LicenseGNU Affero General Public License v3.0
创建时间2024/5/27
最近更新今天
GAI 中文摘要

ChatTTS 是一款专为日常对话场景设计的文本转语音(TTS)生成模型,旨在提升大语言模型交互时的语音自然度和表现力。该项目通过优化语音韵律和情感控制,解决了传统 TTS 模型在对话场景中生硬、缺乏交互感的问题。

该模型专门针对对话任务进行优化,能够生成极其自然且具有表现力的语音。支持多说话人合成,能够流畅处理各类互动式对话场景。具备出色的细粒度控制能力,可精准预测并输出笑声、停顿及语气词等口语化特征。在韵律表现方面优于多数开源 TTS 模型,提供预训练模型以支持深度的科研与开发工作。

该项目适用于需要为 AI 助手、数字人或智能客服构建高质量语音交互功能的开发者与研究人员。用户可将其应用于各类对话机器人或实时语音交互系统中,以获得更加拟人化的听觉体验。