图像处理

WebSSL

WebSSL是由Meta和纽约大学等机构开发的视觉自监督学习模型,基于大规模网络图像数据训练,无需语言监督即可学习有效视觉表示。其包含多个变体,参数规模从3亿到70亿不等,在多模态任务如视觉问答、OCR和图表理解中表现出色。通过筛选含文本图像数据,显著提升特定任务性能。模型具备良好的扩展性,适用于智能客服、文档处理、医疗影像分析等多个领域。

百度AI搜

百度AI搜是一款基于文心大模型构建的桌面端AI搜索引擎,融合了百度多领域的资源与技术,提供智能创作、画图修图、AI阅读及精选智能体等功能。它支持文档阅读、图片处理、代码助手以及法律咨询等多样化应用,适用于学习、工作和生活中的多种场景,助力用户高效获取信息与创造价值。

LBM

LBM(Latent Bridge Matching)是一种基于潜在空间桥接匹配的图像到图像转换框架,支持目标移除、图像重光照、深度图生成等多种任务。通过布朗桥和随机微分方程实现高效且多样化的图像转换,具备良好的可控性和视觉一致性。适用于摄影、设计、3D建模等多个领域,具有广泛的应用前景。

Pixtral 12B

Pixtral 12B是一款由法国初创企业Mistral开发的多模态AI模型,能够同时处理图像和文本数据。该模型包含120亿参数,大小约为24GB,基于Nemo 12B文本模型构建。它具备强大的图像和文本处理能力,能够执行图像描述生成、统计照片中的物体数量等任务,并在多个基准测试中表现出色。Pixtral 12B将根据Apache 2.0许可证开源,用户可以自由下载和微调该模型。应用场景广泛,包括

PxBee

PxBee是一款在线AI图片编辑平台,基于先进的人工智能技术,帮助用户快速移除图片背景、增强图片质量以及生成新的背景。用户只需上传图片,PxBee的AI工具能自动识别并移除背景,在复杂的图像上也能保持边缘的精确性。平台提供一键式的图片增强功能,能修复模糊的照片、减少噪点、改善光照并提升分辨率。此外,PxBee还支持背景替换、场景生成和透明背景应用,适用于创意设计、社交媒体内容创作、品牌展示和旅行摄

ICEdit

ICEdit是由浙江大学与哈佛大学联合开发的指令式图像编辑框架,基于扩散变换器实现自然语言驱动的图像修改。支持多轮编辑、风格转换、对象替换等功能,具有高效处理能力(单张图像约9秒)。采用LoRA-MoE混合微调策略,降低资源需求,适用于创意设计、影视制作、社交媒体等多个领域。开源且提供在线体验,便于研究与应用。

Chillin

Chillin是一款AI驱动的在线视频编辑工具,融合了After Effects和Premiere Pro的功能,支持无缝视频编辑与矢量动画制作。它具备AI字幕生成、图像背景去除、高质量图像生成等功能,支持跨平台使用且无水印限制,适用于多种应用场景如社交媒体、在线教育、企业宣传和个人创作。

Genius

Genius是一款基于AI技术的照片编辑工具,支持艺术风格转换、背景扩展、图像质量提升及AI艺术生成等功能。用户可通过简单操作将普通图片转化为多种艺术形式,适用于社交媒体、摄影后期、数字艺术及商业营销等多个场景,提高创作效率与视觉表现力。

SPAR3D

SPAR3D是一种基于两阶段设计的单图像3D重建工具,能从单张2D图像生成高质量的3D网格。它结合点扩散模型与三平面Transformer技术,实现快速、精确的几何与纹理重建,并支持用户交互式编辑。适用于增强现实、影视制作、工业设计等多个领域。

洞图

洞图是一款集多功能于一体的AI图片处理工具,主要功能包括制作隐藏文字的幻觉图片、生成逼真的AI写真、智能擦除路人、照片动态化、AI换脸、美肤优化、风格滤镜应用以及照片清晰度提升等。其简洁的操作界面和强大处理能力,使用户能快速生成个性化图文素材,适用于多种应用场景,如社交媒体分享、隐私保护、形象照制作及照片修复等。