音频 - 智狐AI导航

SeedFoley

SeedFoley 是由字节跳动开发的端到端视频音效生成模型，能智能识别并生成与视频内容高度同步的动作和环境音效。通过融合视频时空特征与扩散生成技术，提升音效的准确性和细腻度，支持多种视频长度，适用于生活Vlog、短片制作、游戏视频等多种场景，显著提升视频的沉浸感和表现力。

AI项目与工具 2025年06月12日 63 点赞 0 评论 761 浏览

混元图生视频

混元图生视频是腾讯混元推出的开源图生视频模型，支持用户上传图片并输入描述生成5秒短视频，具备对口型、动作驱动和背景音效自动生成等功能。模型适用于多种风格与场景，参数量达130亿，已在腾讯云上线并开源，支持本地部署与定制开发，适用于创意视频、特效制作及动画开发等多个领域。

AI项目与工具 2025年06月12日 43 点赞 0 评论 745 浏览

MakeBestMusic

MakeBestMusic 是一款基于AI技术的音乐创作工具，支持通过文本生成音乐、音频分离、混音与重制等功能，覆盖多种音乐风格。提供多种付费计划，满足不同用户需求，适用于音乐制作、视频创作、游戏开发等场景，提升创作效率与质量。

AI项目与工具 2025年06月12日 21 点赞 0 评论 549 浏览

SongGen

SongGen是一款由多家高校和研究机构联合开发的单阶段自回归Transformer模型，能够根据文本生成高质量音乐。它支持混合模式和双轨模式输出，可分别生成人声与伴奏，便于后期编辑。SongGen通过创新的音频标记化和训练策略，显著提升了人声清晰度和音乐自然度。其开源特性及高质量数据集为音乐生成研究提供了新基准，适用于音乐创作、视频配乐、教育辅助等多个领域。

AI项目与工具 2025年06月12日 78 点赞 0 评论 718 浏览

detangle

detangle 是一款基于人工智能的法律辅助工具，能够快速生成法律文件摘要，将复杂术语转化为通俗语言，帮助用户精准识别关键条款并提供音频摘要功能。适用于个人、企业、法律从业者及学习者，提升法律文件处理效率与理解能力，同时保障数据安全。

AI项目与工具 2025年06月12日 53 点赞 0 评论 493 浏览

TIGER

TIGER是由清华大学研发的轻量级语音分离模型，采用时频交叉建模策略与多尺度注意力机制，有效提升语音分离性能，同时显著降低计算和参数开销。模型通过频带切分优化资源利用，适应复杂声学环境，广泛应用于会议记录、视频剪辑、电影音频处理及智能语音助手等领域。

AI项目与工具 2025年06月12日 98 点赞 0 评论 876 浏览

星声AI

星声AI是一款智能化播客生成工具，支持文字、网页链接或文档输入，自动生成结构完整的播客脚本，并通过高质量语音合成技术转化为自然流畅的音频内容。平台支持中、英、日、韩四国语言，提供多种音色与风格选择，具备音频编辑、内容拆解、多平台发布等功能，适用于知识分享、企业培训、内容创作等多种场景。

AI项目与工具 2025年06月12日 21 点赞 0 评论 813 浏览

PDF to Podcast

PDF to Podcast 是一款由 NVIDIA 开发的 AI 工具，能够将 PDF 文档自动转换为高质量的音频内容，如播客。该工具结合了大型语言模型、文本到语音技术以及 NVIDIA NIM 微服务架构，支持从 PDF 提取信息并生成结构化文本，再通过语音合成输出自然流畅的音频。用户可自定义生成内容的重点，并支持多种部署方式，适用于企业培训、技术简报、客户服务、医疗教育等多个领域。

AI项目与工具 2025年06月12日 32 点赞 0 评论 560 浏览

TurboTTS

TurboTTS是一款支持多语言的在线文本转语音工具，提供300多种真实语音选择，生成自然流畅的语音效果。适用于短视频、教育、广告及播客等多种场景，操作简单，支持多种音频格式下载，并可合法用于商业用途。凭借AI技术，用户能高效完成语音内容制作，满足多样化需求。

AI项目与工具 2025年06月12日 20 点赞 0 评论 589 浏览

InspireMusic

InspireMusic是由阿里巴巴通义实验室开发的AI音乐生成工具，支持通过文字描述或音频提示生成多种风格的音乐作品。其核心技术包括音频 tokenizer、自回归 Transformer 模型、扩散模型（CFM）和 Vocoder，实现文本到音乐的转换、音乐续写及高质量音频输出。该工具支持长音频生成、多种采样率，并提供快速与高音质两种推理模式，适用于音乐创作、音频处理及个性化音乐生成等场景。

AI项目与工具 2025年06月12日 83 点赞 0 评论 878 浏览

音频

首页

音频

列表

默认

浏览次数

发布日期