生成

Etna

是由七火山科技开发的一个平...

MegaTTS 3

MegaTTS 3是由字节跳动与浙江大学合作开发的零样本文本到语音合成系统,采用轻量级扩散模型,支持中英文及混合语音合成,具备语音克隆、音色控制、韵律调节等功能。系统通过分解语音属性实现精准建模,可快速生成高质量语音,适用于教育、内容制作、语音交互等多个领域。

VideoAnydoor

VideoAnydoor是一款由多所高校与研究机构联合开发的视频对象插入系统,基于文本到视频的扩散模型,支持高保真对象插入与精确运动控制。其核心模块包括ID提取器和像素变形器,能实现对象的自然融合与细节保留。该工具适用于影视特效、虚拟试穿、虚拟旅游、教育等多个领域,具备良好的通用性和扩展性。

MarDini

MarDini是一款融合掩码自回归(MAR)和扩散模型(DM)的先进视频生成工具,支持视频插值、图像到视频生成、视频扩展等多种任务。它通过优化计算资源分配,提高了视频生成的效率与灵活性,并具备从无标签数据中进行端到端训练的能力,展现出强大的可扩展性与效率。

SongGen

SongGen是一款由多家高校和研究机构联合开发的单阶段自回归Transformer模型,能够根据文本生成高质量音乐。它支持混合模式和双轨模式输出,可分别生成人声与伴奏,便于后期编辑。SongGen通过创新的音频标记化和训练策略,显著提升了人声清晰度和音乐自然度。其开源特性及高质量数据集为音乐生成研究提供了新基准,适用于音乐创作、视频配乐、教育辅助等多个领域。

GAS

GAS是一种从单张图像生成高质量、视角一致且时间连贯虚拟形象的AI工具,结合3D人体重建与扩散模型技术,支持多视角合成与动态姿态动画。其统一框架提升模型泛化能力,适用于游戏、影视、体育及时尚等领域,具备高保真度与真实感。

小白AI

全球AI集合站,集合了包含GPT,midjourney等全球优秀AI优秀工具。

研学智得AI

研学智得AI是一款由中国知网开发的学术工具,通过渐进式和矩阵式阅读模式提升阅读效率,支持文献矩阵构建、AI辅写及专题探究等功能,帮助用户高效分析文献、生成写作初稿并整理文献综述,适用于学术研究、论文写作、教学支持以及企业研发等多个领域。

SUAPP AI

SUAPP AI是一款面向建筑设计行业的AI工具,支持图生图、文生图、图生视频、图片建模及AI对话等功能,提升设计效率与表现力。结合SketchUp平台,提供插件扩展与沉浸式体验,适用于建筑、室内及景观设计场景,助力设计师快速生成高质量成果并优化设计方案。

MakeLogoAI

Make Logo AI是一个人工智能驱动的Logo生成器,允许用户在不到24小时内为他们的企业创建独特的高清Logo。