Fish Speech 1.5是由Fish Audio开发的一款基于深度学习的文本转语音(TTS)模型,采用了Transformer、VITS、VQVAE和GPT等多种先进技术。该模型支持包括英语、日语、韩语和中文在内的13种语言,具备零样本和少样本语音合成能力,仅需10到30秒的声音样本即可生成高质量的语音模仿效果,语音克隆功能的延迟时间低于150毫秒。Fish Speech 1.5具备强大的泛化能力,无需依赖音素,能够处理任意语言脚本。未来还将推出实时无缝对话功能,方便用户随时进行交互式交流。该模型开源了预训练版本,并支持本地部署,兼容Linux、Windows和macOS系统。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部