音频

Emote Portrait Alive

阿里巴巴发布的EMO,一种音频驱动的AI肖像视频生成框架。通过输入单一的参考图像和语音音频,Emote Portrait Alive可以生成动态的、表情丰富的肖像视频。

百度AI同传

强大的实时同传工具,它通过百度的AI技术,为用户提供实时的语音识别和多语言翻译服务。这款工具不仅提高了跨语言交流的效率,还极大地方便了国际会议、商务洽谈等多语言环境中的...

Verbalate Ai

Verbalate是一款通用的视频翻译和唇语同步工具,能够轻松地将音频/视频内容转换为多种语言,并具备语音克隆和唇语同步功能。

Seaweed

Seaweed-7B 是一款由字节跳动开发的视频生成模型,拥有约 70 亿参数,支持从文本、图像或音频生成高质量视频。具备文本到视频、图像到视频、音频驱动生成、长镜头、连贯叙事、实时生成等功能,适用于内容创作、教育、广告等多个领域。采用变分自编码器和扩散变换器技术,结合多阶段训练与优化策略,提升生成效率与质量,兼顾性能与成本效益。

EchoMimicV2

EchoMimicV2是一款由阿里巴巴蚂蚁集团研发的AI数字人动画生成工具,能够基于参考图片、音频剪辑及手部姿势序列生成高质量的半身动画视频。它支持多语言(中英双语)输入,并通过音频-姿势动态协调、头部局部注意力及特定阶段去噪损失等技术手段显著提高了动画的真实度与细节表现力,适用于虚拟主播、在线教育、娱乐游戏等多个领域。

PlayHT

PlayHT是一个功能强大、特性丰富的在线文本到语音工作室,它通过先进的AI技术,提供了一个广泛的、自然声音的AI语音库,适用于多种语言和场景。

Stability AI

Stability AI提供了一套完整的生成式AI模型,覆盖图像、视频和音频等多个领域,旨在推动AI技术的普及和应用。

AIGCPanel

AIGCPanel是一款开源的AI数字人系统,支持视频合成、声音合成与声音克隆等功能。它利用自然语言处理、计算机视觉技术和深度学习算法,实现高质量的音视频同步和自然语音生成。系统具有多语言支持、模型管理和日志查看功能,可应用于影视制作、虚拟主播、教育培训等多个领域。

Brev AI

Brev AI 是一款基于 AI 的在线音乐生成工具,能够将文本描述转化为定制化的音乐作品。它支持多种音乐风格,涵盖旋律、和声及完整曲目生成,并具备强大的自定义功能。凭借其高质量音频输出和广泛适用性,Brev AI 可应用于视频、社交媒体、播客等领域,满足不同用户的创作需求。

Jellypod

Jellypod 是一款基于 AI 的播客制作工具,支持从网页、PDF 等多种格式自动生成脚本并转为音频,涵盖 30 多种语言和口音。用户可自定义 AI 主持人,编辑脚本并一键发布到主流平台,具备高质量音频生成与内容管理功能,适用于企业、教育和个人品牌建设等场景。