图像

LLaVA

LLaVA-OneVision是字节跳动开发的开源多模态AI模型,主要功能包括多模态理解、任务迁移、跨场景能力、开源贡献及高性能。该模型采用多模态架构,集成了视觉和语言信息,通过Siglip视觉编码器和Qwen-2语言模型,实现高效特征映射和任务迁移学习。广泛应用于图像和视频分析、内容创作辅助、聊天机器人、教育和培训以及安全监控等领域。

MUMU

MUMU是一种多模态图像生成模型,通过结合文本提示和参考图像来生成目标图像,提高生成的准确性和质量。该模型基于SDXL的预训练卷积UNet,并融合了视觉语言模型Idefics2的隐藏状态。MUMU能够在风格转换和角色一致性方面展现强大的泛化能力,同时在生成图像时能够很好地保留细节。主要功能包括多模态输入处理、风格转换、角色一致性、细节保留以及条件图像生成。

auto

Auto-Video-Generator是一款基于AI的自动解说视频生成工具,能够一键生成解说视频。通过输入主题,系统自动生成解说脚本、合成语音、生成配图并完成视频合成,大幅提高内容创作效率。该工具适用于自媒体、营销、教育、新闻媒体及社交媒体等多个领域,帮助用户快速制作高质量视频。

CogView

CogView-3-Plus是智谱AI研发的AI文生图模型,采用Transformer架构替代传统的UNet,优化了扩散模型中的噪声规划。它能够根据用户指令生成高质量、高美学评分的图像,支持多种分辨率,并具有实时生成图像的能力。该模型已被集成到“智谱清言”APP中,并提供API服务,适用于艺术创作、游戏设计、广告制作等多个图像生成领域。

Freepik Mystic

Freepik Mystic是一款由Magnific AI和Freepik合作开发的AI图像生成工具,它能够生成高分辨率(1,664 x 2,432)的全高清图像,涵盖写实肖像、动物、风景、奇幻场景、室内设计、建筑概念、像素艺术、游戏元素和表情包等多种类型。图像由顶尖艺术家策划并经过微调优化,确保高质量输出。用户可以通过Freepik Premium订阅使用该工具,并期待其未来集成到Magnifi

Omages

Omages是一个开源的3D模型生成项目,基于图像扩散技术将3D形状的几何和纹理信息编码到64×64像素的2D图像中。该工具不仅提高了3D对象生成的效率,还在低分辨率下保留丰富的细节。Omages支持3D对象生成、几何和纹理编码、多图谱表示以及自动材质生成等功能。它适用于3D打印与制造、虚拟现实、增强现实、游戏开发、电影和动画制作及室内设计等多种应用场景。

SuperCraft

SuperCraft是一款基于生成式AI技术的无限协作画布设计平台,能够将手绘草图或文本描述转化为高质量的2D图像和3D渲染。平台提供3D模型导出功能,支持团队协作,具备3D渲染和可视化能力,简化复杂项目的节点式流程设计,旨在提升设计师的工作效率和设计质量。

mPLUG

mPLUG-Owl3是一款由阿里巴巴开发的多模态AI模型,专注于理解和处理多图及长视频内容。该模型具备高推理效率和准确性,采用创新的Hyper Attention模块优化视觉与语言信息的融合。它已在多个基准测试中展现出卓越性能,并且其源代码和资源已公开,可供研究和应用。

TrackGo

TrackGo是一种先进的AI视频生成技术,利用自由形状的遮罩和箭头提供精确的运动控制。其核心技术TrackAdapter无缝集成到预训练的视频生成模型中,通过调整时间自注意力层来激活与运动相关的区域。TrackGo在视频质量、图像质量和运动忠实度方面表现出色,适用于影视制作、动画制作、虚拟现实(VR)、增强现实(AR)和游戏开发等多个领域。

Imagine Yourself

Imagine Yourself是一款由Meta公司开发的个性化AI图像生成模型,无需针对特定用户进行调整即可生成高质量、多样化的图像。该模型采用了合成配对数据生成和并行注意力架构,提升了图像质量和文本对齐的准确性。主要功能包括无需特定微调、生成合成配对数据、并行注意力架构以及多阶段微调过程。应用场景广泛,包括社交媒体个性化、虚拟试衣间、游戏和虚拟现实、广告和营销以及艺术创作辅助。