Fish Speech 1.5是由Fish Audio开发的一款基于深度学习的文本转语音(TTS)模型,采用了Transformer、VITS、VQVAE和GPT等多种先进技术。该模型支持包括英语、日语、韩语和中文在内的13种语言,具备零样本和少样本语音合成能力,仅需10到30秒的声音样本即可生成高质量的语音模仿效果,语音克隆功能的延迟时间低于150毫秒。Fish Speech 1.5具备强大的泛化能力,无需依赖音素,能够处理任意语言脚本。未来还将推出实时无缝对话功能,方便用户随时进行交互式交流。该模型开源了预训练版本,并支持本地部署,兼容Linux、Windows和macOS系统。
发表评论 取消回复