TANGOFLUX

简介：TANGOFLUX是一款高效文本到音频生成模型，具备约5.15亿参数量，能够在3.7秒内生成30秒高质量音频。它采用CLAP-Ranked Preference Optimization框架优化音频输出，支持多种应用场景，包括多媒体内容创作、音频制作、播客、教育及虚拟助手开发。其开源特性推动了相关领域的技术进步。

AI小编 484 阅读 0 评论 73 点赞

项目地址

TANGOFLUX是一款由新加坡科技设计大学（SUTD）与NVIDIA合作开发的高效文本到音频生成模型，具有约5.15亿参数量。该模型能够在单个A40 GPU上于3.7秒内生成长达30秒、采样率为44.1kHz的高质量音频。其核心技术基于CLAP-Ranked Preference Optimization（CRPO）框架，通过迭代生成与优化偏好数据，显著提升了音频对齐能力。TANGOFLUX在多个客观和主观基准测试中表现卓越，并已公开其源代码和模型，以促进学术界和产业界的进一步研究。

本文分类：AI项目与工具
本文标签：文本到音频 AI模型音频生成 CLAP-Ranked Preference Optimization 流匹配多媒体创作播客虚拟助手开源模型高质量音频
浏览次数：484 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://tools.sihangdaima.com/AIxiangmuyugongju/9652.html

评论列表共有 0 条评论

暂无评论

TANGOFLUX

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复