应用
Artisse AI
一款创新的逼真的AI摄影应用,Artisse AI 可在各种设置、姿势、服装、发型和面部表情下生成用户无限的超逼真照片。
CosyVoice 2.0
CosyVoice 2.0是一款基于深度学习的语音生成大模型,通过有限标量量化技术和新型架构设计,在发音准确性、音色一致性和韵律表达方面表现出色。其支持流式推理,延迟低至150ms,广泛应用于智能助手、有声读物、视频配音及语言学习等领域,同时具备多语言支持和情感控制等功能。
OpenAudio S1
OpenAudio S1是Fish Audio推出的文本转语音(TTS)模型,基于200万小时音频数据训练,支持13种语言。采用双自回归架构和RLHF技术,生成自然流畅的语音,支持50多种情感和语调标记。具备零样本和少样本语音克隆功能,仅需10到30秒音频即可生成高保真声音。适用于视频配音、播客、游戏角色语音、虚拟助手、游戏娱乐、教育培训及客服系统等场景。提供40亿参数完整版和5亿参数开源版,满足
Gemini 2.5 Pro (I/O 版)
Gemini 2.5 Pro (I/O 版) 是 Google 推出的多模态 AI 模型,具备强大的编程能力和多模态内容生成功能。它能基于提示词或手绘草图快速生成交互式 Web 应用、游戏及模拟程序,并支持代码生成、编辑与优化。该模型在多个基准测试中表现优异,适用于 Web 开发、游戏制作、教育工具构建及企业级应用开发等领域。最新版本进一步提升了性能与灵活性。
FancyVideo
FancyVideo是一款由360公司与中山大学合作开发的AI文生视频模型,采用创新的跨帧文本引导模块(CTGM)。它能够根据文本描述生成连贯且动态丰富的视频内容,支持高分辨率视频输出,并保持时间上的连贯性。作为开源项目,FancyVideo提供了详尽的文档和代码库,便于研究者和开发者深入研究和应用。主要功能包括文本到视频生成、跨帧文本引导、时间信息注入及时间亲和度细化等。
