图像处理

WebSSL

WebSSL是由Meta和纽约大学等机构开发的视觉自监督学习模型,基于大规模网络图像数据训练,无需语言监督即可学习有效视觉表示。其包含多个变体,参数规模从3亿到70亿不等,在多模态任务如视觉问答、OCR和图表理解中表现出色。通过筛选含文本图像数据,显著提升特定任务性能。模型具备良好的扩展性,适用于智能客服、文档处理、医疗影像分析等多个领域。

NVILA

NVILA是一款由NVIDIA开发的视觉语言模型,通过“扩展-压缩”策略优化处理高分辨率图像和长视频,兼具效率与准确性。它在图像和视频基准测试中表现优异,支持时间定位、机器人导航和医疗成像等应用场景,并通过参数高效微调和量化技术提升模型性能。未来将在GitHub和HuggingFace平台上开源。

IC Light AI

一款通过文本提示或参考背景图像控制图像灯光的AI工具,支持左侧光、右侧光等4 种光照角度及多种图像尺寸,适用于肖像摄影、社交媒体、电商等场景。

HairStyle Changer

HairStyle Changer 是一款基于AI技术的在线发型模拟工具,用户可上传照片并预览多种发型与发色效果。它提供丰富的发型选择,包括长发、短发、卷发等,并支持快速生成与分享。适用于个人形象规划、时尚探索、美容行业及社交媒体分享等多种场景,操作便捷且注重用户隐私保护。

DanceGRPO

DanceGRPO 是由字节跳动与香港大学联合开发的视觉生成强化学习框架,支持文本到图像、文本到视频、图像到视频等多种任务,兼容多种生成模型与奖励机制。其通过强化学习优化生成过程,提升视觉内容质量与一致性,降低显存压力,提高训练效率与稳定性,适用于视频生成和多模态内容创作。

美图云修

美图云修是美图公司专为商业摄影行业打造的一站式AI修图解决方案,是一款可以批量对商业人像摄影图片进行一键精修的AI智能电脑端软件,轻松易用,只需简单操作即可完成高品质人像...

ARC实验室

ARC实验室,即腾讯ARC Lab,是腾讯PCG下属的一个研究中心,专注于探索和挑战智能媒体相关的前沿技术。该实验室被称为腾讯PCG的“侦察兵”和“特种兵”,代表着其在探索智能媒体技术领...

Hautech.AI

Hautech.AI 是一款基于AI技术的图像生成工具,可将平面产品图自动转换为逼真模特展示图。用户可自定义模特特征、背景和细节,适用于社交媒体、产品目录和广告制作等多种场景,提升内容多样性与市场竞争力,节省拍摄时间和成本。

LLaVA

LLaVA-OneVision是字节跳动开发的开源多模态AI模型,主要功能包括多模态理解、任务迁移、跨场景能力、开源贡献及高性能。该模型采用多模态架构,集成了视觉和语言信息,通过Siglip视觉编码器和Qwen-2语言模型,实现高效特征映射和任务迁移学习。广泛应用于图像和视频分析、内容创作辅助、聊天机器人、教育和培训以及安全监控等领域。

Vmake

为跨境电商行业提供本地化AI模特,背景图生成等AI工具,操作简单,降本增效。