语音合成

PodAgent

PodAgent是一款由多所高校与企业联合开发的播客生成框架,采用多智能体协作机制,模拟真实脱口秀场景,自动生成高质量对话内容。系统具备声音匹配、语音合成与表现力增强功能,并提供多语言支持和完整播客结构生成能力。同时,PodAgent引入评估指标,确保内容的专业性与多样性,适用于媒体、教育、企业推广等多个领域。

EmotiVoice

EmotiVoice是网易有道推出的开源文本到语音系统,支持中英文及2000+音色,能根据提示生成带情感的语音。具备情感合成、语音克隆、多语言支持等功能,提供Web界面和API接口,适用于有声读物、智能助手、教育、客服等场景,技术上支持高效部署与模型微调。

MoneyPrinterPlus

MoneyPrinterPlus是一款基于AI技术的短视频生成工具,能够实现一键批量生成并自动混剪短视频。该工具支持将视频自动发布至多个社交平台,简化了视频内容创作流程。MoneyPrinterPlus的核心功能包括AI一键批量生成短视频、自动批量混剪、自动发布到社交平台、支持本地和云语音服务以及AI生图功能。

ElevenLabs Flash

ElevenLabs Flash是一款专为对话型AI设计的低延迟语音合成模型,支持多种语言,能够以极短的延迟(75毫秒)生成高质量语音,广泛应用于虚拟助手、客户服务、语音播报、教育及娱乐等领域,为用户提供即时反馈和沉浸式体验。该工具以其高效性和灵活性成为超低延迟语音合成领域的领先解决方案。

EasyVideoTrans

EasyVideoTrans是一款开源的AI视频翻译工具,支持从视频中提取音频并翻译字幕,同时提供多样化的声音风格以实现自然的配音效果。它适用于视频创作者、教育机构、企业培训及品牌宣传等领域,能够快速生成高质量的中文版本视频,满足跨语言沟通的需求。

Orpheus TTS

Orpheus TTS 是一款基于 Llama-3b 架构的开源文本到语音系统,支持自然、富有情感的语音生成。具备零样本语音克隆能力,无需预训练即可模仿特定语音,延迟低至 200 毫秒,适合实时应用。支持多种语音风格和情感控制,适用于有声读物、虚拟助手、游戏、教育等多个领域。

Vidnoz

Vidnoz是一款基于AI的在线视频生成工具,拥有超过1200个逼真的虚拟形象、470多种语言支持及900多个视频模板,支持从文本到视频的全流程制作。其主要功能包括AI虚拟形象生成、文字转语音、视频模板应用、智能编辑、语音克隆以及静态图片动态化处理,广泛应用于社交媒体营销、在线教育、企业培训、产品宣传等领域。

cnChar

一个功能全面、多端支持的汉字拼音笔画JavaScript库,用于处理汉字相关的多种功能,包括拼音、笔画、简繁体转换等。

ViiTor AI

ViiTor AI是一款基于人工智能技术的创新平台,集成了视频翻译、语音克隆、动态语音合成等功能,支持多语言处理。它能够将静态内容转化为动态形式,同时实现跨语言交流,适用于个人创作者、教育机构、跨国企业和翻译行业,帮助企业提升全球化竞争力。

Ciallo TTS

Ciallo TTS是一款开源的文本转语音工具,支持300多种语言和口音,提供语速、语调调节功能,并具备即时试听和长文本处理能力。适用于学习、工作、创作等场景,提升信息获取与内容制作的效率。