生成

Muyan

Muyan-TTS是一款面向播客场景的开源文本转语音工具,基于超10万小时播客数据训练,支持零样本语音合成与说话人适配,可在0.33秒内生成1秒音频,适合实时与长内容合成。支持本地部署与API调用,应用于播客、有声书、视频配音、AI角色及新闻播报等领域,兼具高效性与灵活性。

豆包Seaweed

豆包Seaweed是一款基于Transformer架构的AI视频生成工具,支持文生视频和图生视频模式,能够生成高逼真度、细节丰富的视频内容,广泛应用于电商、文旅、教育等领域,大幅降低视频制作门槛,提升创作效率。

Songburst

Songburst是一款基于AI技术的音乐生成工具,用户可通过描述音乐风格或情感来生成原创音轨。该工具支持多场景应用,包括视频、播客、游戏等,并可将音乐导出至Spotify和Apple Music等平台。用户能够无限次下载生成的音乐文件,同时借助提示增强器优化生成效果,提升创作效率。

PrintVerse

PrintVerse是一款在线AI 3D模型生成工具,支持用户通过图片或文字生成3D模型。平台提供多种风格模板,可将照片转换为卡通手办风格,并提供3D打印参数建议。用户可预览模型并下载STL或OBJ格式文件,适用于个性化礼品、教育、艺术创作及产品开发等多种场景。该工具简化了3D创作流程,提升用户体验。

灵犀 X2

灵犀 X2 是智元机器人推出的双足人形机器人,具备 28 个自由度和高灵活性,可完成跳舞、奔跑、骑车等复杂动作。搭载 Diffusion 动作生成引擎和多模态交互系统,支持情感识别与毫秒级响应。适用于家庭服务、教育、医疗护理、工业协作及娱乐场景,具备强大的环境感知与任务执行能力。

II

II-Agent 是一个开源的 Agent 框架,通过与大型语言模型(LLM)交互,简化和提升跨领域的工作流程。其核心功能包括研究与事实核查、内容生成、数据分析与可视化、软件开发、工作流自动化及问题解决等。具备动态上下文提示、智能 token 管理、规划与反思能力、多模态处理以及实时通信等功能。支持 CLI 和 WebSocket 接口,适用于智能客服、金融投顾、医疗诊断和教育辅导等多种场景。

硅语AI知识创业平台

硅语AI知识创业平台是一款基于人工智能技术的数字人解决方案,主要功能涵盖AI数字人克隆、语音合成、智能提词、字幕生成及美颜滤镜等。它支持多种应用场景,如教育、营销、内容创作和个人品牌建设,为用户提供便捷高效的数字人创建体验。

Speech

Speech-02 是 MiniMax 推出的先进文本到语音模型,支持零样本语音克隆和高质量语音合成,具备多语言支持和情感控制功能。采用自回归 Transformer 和 Flow-VAE 架构提升语音自然度和相似度,适用于配音、有声读物、智能助手等多种场景。提供 HD 和 Turbo 两个版本,满足不同性能需求。

ImagePulse

ImagePulse是由魔搭社区推出的开源项目,专注于图像理解和生成模型的数据集支持。它通过将复杂任务拆解为“修改、添加、移除”“风格迁移”“人脸保持”等原子能力,构建专门的数据集,提升模型在特定任务上的性能。项目提供开源脚本,支持数据集的生成与扩展,并结合多种技术资源实现多模型协同,适用于艺术创作、视频制作、产品展示等多个领域。