图像

3DIS

3DIS-FLUX是一种基于深度学习的多实例图像生成框架,采用两阶段流程:先生成场景深度图,再进行细节渲染。通过注意力机制实现文本与图像的精准对齐,无需额外训练即可保持高生成质量。适用于电商设计、创意艺术、虚拟场景构建及广告内容生成等领域,具备良好的兼容性和性能优势。

Dream Lab

Dream Lab是一款基于人工智能技术的文本到图像生成工具,由Canva推出并依托于收购的AI初创公司Leonardo.ai的技术支持。它能够通过解析用户输入的简单文字描述,生成包括3D渲染、插画等多种风格的高质量图像。此外,Dream Lab还支持参考已有图片进行优化,并提供灵活的尺寸选择与编辑功能,适用于社交媒体、广告营销、品牌设计以及教育培训等多个场景。

Almaginate-增强版MJ

Almaginate作为一个AI创作平台,通过提供图像生成、风格转换和创意启发等功能,帮助用户以新颖的方式进行艺术创作。它可能特别适合那些寻求创新创作方法的艺术家和设计师。

Goku

Goku是由香港大学与字节跳动联合开发的AI视频生成模型,支持文本到图像、文本到视频、图像到视频等多种生成方式。其核心优势在于高质量的视频输出、低制作成本及多模态生成能力。Goku+作为扩展版本,专注于广告视频创作,具备稳定的动作表现和丰富的表情交互。模型基于大规模数据集和先进架构,适用于广告、教育、娱乐等多个领域,提升了内容创作效率与质量。

Pixtral 12B

Pixtral 12B是一款由法国初创企业Mistral开发的多模态AI模型,能够同时处理图像和文本数据。该模型包含120亿参数,大小约为24GB,基于Nemo 12B文本模型构建。它具备强大的图像和文本处理能力,能够执行图像描述生成、统计照片中的物体数量等任务,并在多个基准测试中表现出色。Pixtral 12B将根据Apache 2.0许可证开源,用户可以自由下载和微调该模型。应用场景广泛,包括

Stable Doodle

Stable Doodle,一款草图到图像工具,可将简单的绘图转换为动态图像,为一系列专业人士和爱好者提供无限的成像可能性,将绘画变为现实从未如此简单。

Champ

Champ是由阿里巴巴、复旦大学和南京大学的研究人员共同开发的一款基于3D的AI工具,能够将人物图片转换为高质量的视频动画。Champ通过结合3D参数化模型和潜在扩散模型,精准捕捉和再现人体的3D形态和动态,保证动画的连贯性和视觉逼真度。此外,Champ还支持跨身份动画生成,并能与文本生成图像模型结合,使用户可以根据文本描述生成特定的角色外观和动作。

Jodi

Jodi是由中国科学院计算技术研究所和中国科学院大学推出的扩散模型框架,基于联合建模图像域和多个标签域,实现视觉生成与理解的统一。它支持联合生成、可控生成和图像感知三种任务,利用线性扩散Transformer和角色切换机制,提升生成效率和跨领域一致性。Jodi使用Joint-1.6M数据集进行训练,包含20万张高质量图像和7个视觉域标签,适用于创意内容生成、多模态数据增强、图像编辑与修复等场景。

Pixtral Large

Pixtral Large是一款由Mistral AI开源的超大规模多模态模型,具备1240亿参数,支持文本、图像和图表的理解与生成。它拥有128K的上下文窗口,能在多语言环境中处理复杂文档和多图像场景,广泛应用于教育、医疗、客服和内容审核等领域。

倍客AI

倍客AI是一款面向商业摄影、广告设计和电商展示的人工智能内容创作平台,提供AI商图、AI模特、AI工具、AI文案和AI视频五大功能模块。用户可通过上传图片或输入描述,快速生成高质量的产品图、虚拟模特、文案及视频内容,提升视觉表现力与创作效率。该工具适用于广告制作、内容创作及多媒体展示等多个场景,有效优化传统创作流程。