图像

Gemini

Gemini是Google DeepMind推出的全新AI模型,集成了多模态推理功能,超越了以往模型的性能,适用于科学文献洞察、竞争性编程等多种应用场景。

VideoDrafter

一个高质量视频生成的开放式扩散模型,相比之前的生成视频模型,VideoDrafter最大的特点是能在主体不变的基础上,一次性生成多个场景的视频。

TextHarmony

TextHarmony是一款由华东师范大学与字节跳动联合开发的多模态生成模型,擅长视觉与文本信息的生成与理解。该模型基于Slide-LoRA技术,支持视觉文本生成、编辑、理解及感知等功能,广泛应用于文档分析、场景文本识别、视觉问题回答、图像编辑与增强以及信息检索等领域。通过高质量数据集的构建与多模态预训练,TextHarmony在视觉与语言生成任务中表现出色。

Swapper AI

一款用户通过上传产品照片,就可生成逼真的商品和时装模特图的电商助手。

SynthLight

SynthLight是由耶鲁大学与Adobe Research联合开发的基于扩散模型的人像重照明工具,通过物理渲染引擎生成合成数据并结合多任务训练策略,实现高质量的光照效果生成。它能够根据环境光照图重新渲染人像,生成自然的高光、阴影和漫反射效果,并适用于摄影后期、虚拟场景、游戏开发及广告设计等多个领域,具备良好的泛化能力和实用性。

FastVLM

FastVLM是一款高效的视觉语言模型,采用FastViTHD混合视觉编码器,显著提升高分辨率图像处理速度并减少token数量。其在保持高性能的同时,降低了计算成本和模型复杂度。适用于视觉问答、图文匹配、文档理解、图像描述生成等多模态任务,具备良好的实用性和扩展性。

Qwen Chat

Qwen Chat是阿里通义推出的AI交互平台,支持多模型对比、文档问答、图像理解、HTML展示及代码生成等功能。用户可通过上传文档或图片进行精准问答与内容分析,同时支持生成图表、代码等人工制品。适用于教育、开发、内容创作及企业办公等多个场景,提升工作效率与用户体验。

腾讯混元游戏

腾讯发布的混元游戏视觉生成平台,这是依托混元大模型打造的首个工业级AIGC游戏内容生产引擎,可以优化游戏资产生成与游戏制作流程。

Vmake.ai

提供一系列多功能的 AI 驱动工具,集成了虚拟模特,消除了传统的照片拍摄。旨在帮助您电子商务提供高质量的AI设计服务。

Almaginate-增强版MJ

Almaginate作为一个AI创作平台,通过提供图像生成、风格转换和创意启发等功能,帮助用户以新颖的方式进行艺术创作。它可能特别适合那些寻求创新创作方法的艺术家和设计师。