音频

iMyFone VoxBox

iMyFone VoxBox是一款集多种声音制作功能于一体的AI声音生成器,适合各种使用场景,从视频配音到有声书叙述,再到播客和游戏角色配音等。

PaddleSpeech

PaddleSpeech是百度飞桨团队开发的开源语音处理工具,涵盖语音识别、语音合成、声纹识别、语音翻译等功能。支持多种接口形式,适用于智能语音助手、语音播报、身份验证等场景。基于PaddlePaddle框架,提供高效的深度学习模型和丰富的音频处理能力,适用于多种实际应用需求。

VMix

VMix是一款提升文本到图像生成美学质量的工具,通过解耦文本内容与美学描述,并引入细粒度美学标签,增强图像在色彩、光线、构图等方面的视觉表现。其核心技术为交叉注意力混合控制模块,可在不改变原有模型结构的情况下注入美学条件,保持图文一致性。VMix兼容多种扩散模型及社区模块,支持多源输入、高质量视频处理、实时直播与远程协作,广泛应用于电视直播、网络直播、现场活动及虚拟演播室等场景。

码智作

一个二维码制作工具,码智作可以快速将文字、图片、视频和音频等内容制作成二维码。

Nova A.I.

一款简单却强大的在线视频编辑和日志软件,由计算机视觉视频搜索引擎提供支持。

NaturalReader

NaturalReaders是一个提供文本到语音转换服务的网站。

MultiTalk

MultiTalk是由中山大学深圳校区、美团和香港科技大学联合推出的音频驱动多人对话视频生成框架。它根据多声道音频输入、参考图像和文本提示,生成包含人物互动且口型与音频一致的视频。通过Label Rotary Position Embedding (L-RoPE) 方法解决多声道音频与人物绑定问题,并采用部分参数训练和多任务训练策略,保留基础模型的指令跟随能力。MultiTalk适用于卡通、歌唱及

MoonCast

MoonCast 是一个零样本播客生成系统,能够从纯文本源合成自然的播客风格语音。它采用长上下文语言模型和大规模语音数据训练,支持中文和英文,生成几分钟长的高质量播客音频。MoonCast 通过特定的LLM提示生成播客脚本,并利用语音合成模块转换为最终音频,具备长音频生成、增强自然性、多语言支持和零样本语音合成等功能。其技术原理包括多阶段训练、短段级别自回归音频重建和自发性增强,适用于内容创作、教

EDTalk

EDTalk是一款基于音频驱动的唇部同步模型,支持嘴型、头部姿态及情感表情的独立操控。用户可通过上传图片、音频和参考视频生成具有唇形同步和情感表达的动态人脸视频,广泛应用于教育、影视后期、虚拟现实等领域。其高效解耦机制和轻量化设计使其易于操作且资源友好。