语音

TicVoice 7.0

TicVoice 7.0 是一款基于 Spark-TTS 的语音合成引擎,采用 BiCodec 技术实现音色与语义的精准控制,支持 3 秒语音克隆、多角色、多情绪表达及中英切换,语音自然流畅,接近广播级水平,适用于智能客服、有声书、影视配音等场景。

Hallo3

Hallo3是由复旦大学与百度联合开发的基于扩散变换器网络的肖像动画生成技术,能够生成多视角、动态且逼真的视频内容。其核心功能包括身份一致性保持、语音驱动动画、动态对象渲染和沉浸式背景生成。技术上采用预训练变换器模型,结合身份参考网络与音频条件机制,实现高质量视频生成。适用于游戏开发、影视制作、社交媒体及VR/AR等多个领域。

瓦兔漫剪工厂

一款帮助漫剪达人制作漫剪视频的辅助软件,其中集成文字转语音、频文字提取、漫画对白遮挡,自动搭配画面转场、音效、背景音乐等众多漫画剪辑功能,是一款漫剪小白也能一键使用的漫剪神器。

ChatGPT Windows客户端

ChatGPT Windows客户端是一款为Windows用户打造的桌面应用程序,支持快捷键调用、截图发送、文件上传、图片拖拽、对话搜索及语音交互等功能。它旨在提升用户的工作效率,涵盖学术研究、编程开发、内容创作、客户服务和语言学习等多个领域。目前处于测试阶段,未来将全面开放。

EzAudio

EzAudio是一款基于文本到音频(Text-to-Audio, T2A)生成模型,通过优化的扩散变换器架构和高效的数据训练策略,实现了快速生成高质量音频的功能。它支持多种应用场景,如音乐创作、影视后期制作、语音合成等,并具备高保真度和低资源消耗的特点。

Lingvanex

一个全面的翻译工具,包括文本、语音、图片和文档翻译应用。它利用神经机器翻译技术提高生产力。

Takin AudioLLM

Takin AudioLLM是一套由喜马拉雅Everest团队研发的语音生成模型,包含文本转语音(Takin TTS)、音色转换(Takin VC)及声音风格变换(Takin Morphing)。它采用最新大型语言模型技术,可生成接近真人的高质量语音,并支持个性化定制与零样本学习。该工具广泛应用于有声书制作、虚拟助手、电影配音等领域,具有音色精准、风格多样等特点。

FaceHub

FaceHub是一款基于AI技术的照片和视频编辑工具,主要功能包括面部交换、AI肖像生成、动画制作及语音克隆等。它能够帮助用户轻松制作个性化内容,适用于社交媒体娱乐、个人创意表达以及专业用途如头像设计和视频配音。其强大的功能和简便的操作使其成为一款多功能的数字内容创作助手。

Audyo

Audyo是一款文本到语音的AI语音转换器,允许用户通过打字创建和编辑人类质量的AI语音。

TTS

TTS语音向导是一种工具,允许用户通过微软Azure语音识别和TTS将语音转换为文本,然后再转换回语音。它还向VRChat发送OSC消息以在头像上显示文本。该工具有许多自定义选项,包括100...