自然语音

OpenVoice

OpenVoice是一款由MyShell开发的免费开源AI语音克隆工具,其主要功能包括精准的音色和音调克隆及灵活的语音风格控制。该工具能够捕捉并复制不同语言或口音的音色,生成自然流畅的语音,并支持零样本跨语言语音克隆。开发者可以通过GitHub项目地址进行本地安装和运行,也可以通过Lepton AI、MyShell或HuggingFace提供的在线演示体验该工具。

FunAudioLLM

FunAudioLLM是由阿里巴巴通义实验室开发的开源语音大模型项目,包含SenseVoice和CosyVoice两个子模型。SenseVoice擅长多语言语音识别和情感辨识,支持超过50种语言;CosyVoice则专注于自然语音生成,支持多种语言、音色和情感控制。该项目适用于多语言翻译、情感语音对话等场景,其相关模型和代码已公开发布。

edge

edge-tts 是一个开源的AI文字转语音项目,支持超过40种语言和300多种声音。该项目利用微软Azure Cognitive Services技术,能够将文本信息转换为流畅自然的语音输出。edge-tts 提供了丰富的语言和声音选择,易于集成且具有高度可定制性。其主要功能包括多语言支持、多样声音选择、流畅自然语音、易于集成的API以及开源特性。edge-tts 广泛应用于辅助技术、客户服务、

Realtime API

Realtime API是一款由OpenAI研发的低延迟、多模态对话式API,支持文本与音频输入输出,具备实时语音处理、自然语音合成及多模态交互等功能。通过WebSocket协议实现持久连接,支持事件驱动的交互模式,适用于客户服务、语言学习、游戏娱乐等多种应用场景。

Speechelo

Speechelo是一款基于先进AI技术的文本转语音工具,支持超过30种性别和语言的声音选择,用户可通过调整语调、速度和音高来自定义语音效果。它兼容主流视频编辑软件,适用于产品演示、教育培训、营销推广等多种场景,助力高效生成高质量语音内容。

Llasa TTS

Llasa TTS是基于LLaMA架构的开源文本转语音模型,支持高质量语音合成、情感表达和音色克隆。采用单层VQ编解码器和Transformer结构,具备多语言支持及长文本处理能力,适用于智能助手、有声读物、游戏娱乐等场景。模型提供不同参数规模版本,支持零样本学习,提升语音自然度和表现力。

Orpheus TTS

Orpheus TTS 是一款基于 Llama-3b 架构的开源文本到语音系统,支持自然、富有情感的语音生成。具备零样本语音克隆能力,无需预训练即可模仿特定语音,延迟低至 200 毫秒,适合实时应用。支持多种语音风格和情感控制,适用于有声读物、虚拟助手、游戏、教育等多个领域。

NaturalReaders

一款文本转语音软件和Ai语音生成器,可以将文本、PDF和其他格式转换为音频,让用户可以听取他们的文件、电子书和学习材料。

Voice Engine

Voice Engine是由OpenAI开发的AI语音合成和声音克隆技术。该技术能够通过15秒的音频样本和文本输入生成自然语音。它已在OpenAI的文本到语音API和ChatGPT的语音功能中应用。Voice Engine广泛应用于教育、翻译、远程服务提供、支持言语残障者以及帮助恢复患者声音等方面。为了确保技术安全,OpenAI实施了严格的使用政策和安全措施。

Parler

Parler-TTS是一款由Hugging Face开发的开源文本到语音(TTS)模型,能够模仿特定说话者的风格,生成高质量、自然的语音。该模型采用轻量级设计,包括文本编码器、解码器和音频编解码器,通过整合文本描述和嵌入层,优化了语音生成过程。Parler-TTS的所有资源公开,促进了高质量、可控TTS模型的发展。此外,用户还可以根据需要对模型进行自定义训练和微调。