音频

JoyHallo

JoyHallo是一款由京东开源的AI数字人模型,专注于普通话语音到视频的转换,支持跨语言生成。它通过半解耦结构优化唇部同步效果,并结合特征嵌入和交叉注意力机制提升生成质量。JoyHallo适用于虚拟主播、在线教育、客户服务、娱乐产业等多个领域,能够显著提升内容创作效率并降低成本。

Mini

Mini-Omni 是一个开源的端到端语音对话模型,具备实时语音输入和输出的能力,能在对话中实现“边思考边说话”的功能。模型设计无需额外的自动语音识别(ASR)或文本到语音(TTS)系统,直接进行语音到语音的对话。Mini-Omni 采用文本指导的语音生成方法,通过批量并行策略提高性能,同时保持了原始模型的语言能力。它支持实时语音交互、文本和语音并行生成、跨模态理解等功能,适用于智能助手、客户服务

HeyMusic AI

一个基于AI的通过输入歌词或简单的提示来生成独特音乐作品的工具,帮助音乐家和歌曲作者创作歌词、旋律和完整的音乐编排。

Notebook LM

Google Labs开发的实验性AI工具。它利用生成式AI技术,帮助用户快速整理和总结笔记。用户可以输入各种文本或PDF文件,NotebookLM会自动组织内容并提供建议。

MacWhisper

MacWhisper是一款基于OpenAI Whisper技术的AI音频转文字工具。它能够在本地设备上将音频文件快速转录成文本,并支持多种语言。该工具具有多种音频和视频格式兼容性,提供不同的转录模型选择,支持字幕导出,且具备视频播放功能。最新版本增加了基于Apple芯片的硬件加速,提升了实时语音识别效率,并集成了OpenAI语言模型以提高转录和翻译的准确性。MacWhisper适用于记者、媒体工作

Multi

Multi-Speaker 是 AudioShake 推出的高分辨率多说话人分离工具,支持将音频中不同说话人的语音精准分离至独立轨道,适用于广播级音频处理。它具备高保真音频处理能力,支持高采样率,能处理长达数小时的录音,在复杂场景下仍能保持稳定效果。广泛应用于影视、播客、无障碍服务及内容创作等领域,提升音频编辑效率与质量。

AvatarFX

AvatarFX是由Character.AI开发的AI视频生成工具,通过上传图片和选择语音,可生成角色说话、唱歌和表达情感的动态视频。支持多角色、多轮对话及长视频生成,具备高时间一致性。采用扩散模型与音频条件化技术,确保动作与语音同步。适用于互动故事、虚拟直播、娱乐表演及教育内容创作,提供高效、高质量的视频生成体验。

ConvertIO

ConvertIO,免费在线全能文件格式转换器网站。

OpenCut

一款智能音视频剪辑工具,具备去水印、视频转GIF、音频提取、人声分离、图片修复等强大功能。

LipRead Pro

LipRead Pro 是一款基于AI技术的视频唇读工具,可将视频中的唇部动作转换为文字,支持多语言和口音识别。其高精度算法确保了文字输出的准确性,适用于内容创作、无障碍辅助、安全监控、历史档案修复等多种场景。操作简便,处理高效,注重用户数据隐私保护,适合专业用户和普通用户使用。