音频 - 智狐AI导航

OmniHuman

OmniHuman是字节跳动推出的多模态人类视频生成框架，基于单张图像和运动信号生成高逼真视频。支持音频、姿势及组合驱动，适用于多种图像比例和风格。采用混合训练策略和扩散变换器架构，提升生成效果与稳定性，广泛应用于影视、游戏、教育、广告等领域。

AI项目与工具 2025年06月12日 43 点赞 0 评论 641 浏览

绘声美音

绘声美音是一款集声音克隆、AI变声、文字转语音及多种音频处理功能于一体的在线工具，用户可通过微信公众号便捷使用。支持上传语音训练专属声纹模型，进行歌曲翻唱并生成MV，同时提供变声、音频提取、听歌识曲等功能，适用于娱乐、配音、创作等多种场景。

AI项目与工具 2025年06月12日 39 点赞 0 评论 728 浏览

SyncAnimation

SyncAnimation是一款基于音频驱动的实时动画生成框架，能够生成与音频同步的上半身姿态和面部表情，包括嘴唇动作。采用NeRF技术，结合音频到姿态和表情的同步模块，实现实时渲染与高精度动画生成。支持多种推理方式，具备高同步性和自然表现力，适用于虚拟主播、视频会议、动画制作、游戏开发及智能客服等多个领域。

AI项目与工具 2025年06月12日 41 点赞 0 评论 772 浏览

Whisper Input

Whisper Input 是一款开源语音输入工具，基于 Python 和 OpenAI Whisper 模型开发，支持多语言语音识别与实时转录。用户可通过快捷键操作录音并生成文本，具备翻译、自动标点、高效处理及本地运行等功能。适用于会议记录、教育、智能交互及媒体制作等多种场景。

AI项目与工具 2025年06月12日 29 点赞 0 评论 853 浏览

EMO2

EMO2是一种由阿里巴巴智能计算研究院开发的音频驱动头像视频生成技术，通过音频输入和静态人像照片生成高质量、富有表现力的动态视频。其核心技术包括音频与手部动作的协同建模、扩散模型生成视频帧，以及高精度音频同步。该工具支持多样化动作生成，适用于虚拟现实、动画制作和跨语言内容创作等场景，具备自然流畅的视觉效果和丰富的应用场景。

AI项目与工具 2025年06月12日 62 点赞 0 评论 516 浏览