图像

CogView3

CogView3是一款基于中继扩散技术的开源AI图像生成模型,由清华大学与智谱AI联合研发。它通过分阶段生成图像,从低分辨率逐步提升至高分辨率,提高了生成效率并降低了运行成本。CogView3在生成质量和速度上超越了现有的开源模型SDXL,在保持图像细节的同时大幅减少推理时间。其核心特性包括高性能、多分辨率支持及多种优化技术,适用于艺术创作、数字娱乐、广告营销等多个领域。

MemFree

MemFree是一款开源的混合AI搜索引擎,集成了多种AI技术和搜索引擎功能,支持文本、图像、文件和网页等多种输入形式,可提供文本、思维导图、图片和视频等多格式搜索结果。其核心功能涵盖图像处理、文档总结与提问、学术问题解答、代码解释与生成等,特别适用于学术研究、工作办公和日常生活场景,旨在优化知识管理、提升生产力并降低使用成本。

PIXMAKER

PIXMAKER是一款基于AI技术的图像生成与编辑平台,主要服务于电商行业。其核心功能涵盖AI生成产品背景、虚拟试穿效果、多姿势模特照片生成、动态产品视频制作以及背景移除等。用户无需具备专业设计技能即可快速生成高质量的产品图片和视频,从而提升商品展示效果并促进销售转化。该工具广泛应用于电商、市场营销、时尚服装等多个领域,助力企业高效完成产品视觉内容创作。

FLUX

FLUX-Controlnet-Inpainting是一款基于ControlNet和FLUX.1-dev技术的图像修复工具,能够通过用户指定的掩码区域对图像进行精准修复。其主要特点包括风格一致性、边缘和结构保持、高质量生成以及参数可调性。工具广泛应用于历史照片修复、艺术创作、媒体娱乐、广告营销、数据增强及医学成像等领域。

Long

Long-VITA是一款由腾讯优图实验室、南京大学和厦门大学联合开发的多模态AI模型,支持处理超长文本(超过100万tokens)及多模态输入(图像、视频、文本)。通过分阶段训练提升上下文理解能力,结合动态分块编码器与并行推理技术,实现高效处理长文本和高分辨率图像。模型基于开源数据训练,适用于视频分析、图像识别、长文本生成等场景,性能在多个基准测试中表现突出。

Dawn AI

Dawn AI是一款基于AI技术的图像生成工具,支持文本转图像、多种绘画风格选择以及头像生成等功能。用户可通过输入文字或上传图片,快速生成艺术作品。界面简洁易用,适合各类用户,适用于社交媒体、创意内容制作及角色定制等多种场景,提升创作效率与个性化表达。

Visual Electric

一款基于 AI 的图像生成器,专为创意而设计。它提供了无限的画布和直观的界面,以简化用户的创作过程。

SigLIP 2

SigLIP 2 是 Google DeepMind 开发的多语言视觉-语言模型,具有强大的图像与文本对齐能力。它支持多种语言输入,具备零样本分类、图像-文本检索等功能,并通过 Sigmoid 损失函数和自监督学习技术提升训练效率与模型性能。其支持多种分辨率的变体,适用于文档理解、视觉问答及开放词汇任务。该模型基于 Vision Transformer 架构,具备良好的兼容性。

TouchRetouch

TouchRetouch是一款专业的图像编辑软件,专注于去除照片中的多余物体或瑕疵。其核心功能包括对象感知修饰、灵活的线条移除以及智能网格移除,能够高效处理各种复杂的编辑需求。该软件界面友好,操作简便,广泛适用于照片修复、产品摄影、旅行摄影等多个领域。

Valley

Valley是一款由字节跳动开发的多模态大语言模型,擅长处理文本、图像和视频数据,广泛应用于内容分析、图像和视频描述、电子商务及短视频平台等领域。其Eagle版本通过引入VisionEncoder增强了模型性能,支持灵活调整令牌数量,实现了更高效的多模态数据处理。Valley在多项基准测试中表现出色,尤其在参数规模较小的情况下依然保持优异的成绩。