TANGOFLUX是一款由新加坡科技设计大学(SUTD)与NVIDIA合作开发的高效文本到音频生成模型,具有约5.15亿参数量。该模型能够在单个A40 GPU上于3.7秒内生成长达30秒、采样率为44.1kHz的高质量音频。其核心技术基于CLAP-Ranked Preference Optimization(CRPO)框架,通过迭代生成与优化偏好数据,显著提升了音频对齐能力。TANGOFLUX在多个客观和主观基准测试中表现卓越,并已公开其源代码和模型,以促进学术界和产业界的进一步研究。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部