扩散模型

PromptFix

PromptFix是一款基于扩散模型的开源AI图像修复工具,支持多种图像处理任务,如上色、物体移除、去雾、去模糊等。它通过20步去噪过程精确修复图像缺陷,同时保持图像结构完整性和泛化能力。PromptFix具备高频细节保护、辅助提示适配器、零样本学习能力和大规模数据集构建等特点,适用于个人照片编辑、专业摄影、数字艺术创作、媒体广告及电影制作等多个领域。

SwiftBrush V2

SwiftBrush V2 是一款基于文本到图像的单步扩散模型,通过改进权重初始化、LoRA训练及夹紧CLIP损失等技术,实现了与多步Stable Diffusion模型相媲美的性能。它无需真实图像数据即可训练,显著提升了生成速度和图像质量,广泛应用于艺术创作、游戏开发、虚拟现实等领域。

DICE

DICE-Talk是由复旦大学与腾讯优图实验室联合开发的动态肖像生成框架,能够根据音频和参考图像生成具有情感表达的高质量视频。其核心在于情感与身份的解耦建模,结合情感关联增强和判别机制,确保生成内容的情感一致性与视觉质量。该工具支持多模态输入,具备良好的泛化能力和用户自定义功能,适用于数字人、影视制作、VR/AR、教育及心理健康等多个领域。

CustomVideoX

CustomVideoX是一种基于视频扩散变换器的个性化视频生成框架,能够根据参考图像和文本描述生成高质量视频。其核心技术包括3D参考注意力机制、时间感知注意力偏差(TAB)和实体区域感知增强(ERAE),有效提升视频的时间连贯性和语义一致性。支持多种应用场景,如艺术设计、广告营销、影视制作等,具备高效、精准和可扩展的特点。

Loopy

Loopy是一款由字节跳动开发的音频驱动的AI视频生成模型。该模型能够将静态照片转化为具有面部表情和头部动作的动态视频,与给定的音频文件同步。Loopy利用先进的扩散模型技术,无需额外的空间信号或条件,捕捉并学习长期运动信息,从而生成自然流畅的动作。其主要功能包括音频驱动、面部动作生成、无需额外条件以及长期运动信息捕捉。Loopy适用于娱乐、教育、影视制作等多种场景。

VISION XL

VISION XL是一款基于潜在扩散模型的视频修复与超分辨率工具,支持视频去模糊、超分辨率提升、视频修复及帧平均等功能。它采用伪批一致性采样、批量一致性反演等技术,显著提高了处理效率和视频质量。VISION XL广泛应用于电影修复、监控视频增强、体育赛事直播等领域,能够满足高质量视频需求。

RegionDrag

RegionDrag是一种基于区域的图像编辑技术,由香港大学和牛津大学联合开发。该技术利用扩散模型,让用户通过定义手柄区域和目标区域来实现快速且精确的图像编辑。RegionDrag在单次迭代中完成编辑任务,显著减少编辑时间,同时采用注意力交换技术增强编辑的稳定性和自然性。主要应用领域包括数字艺术与设计、照片编辑、虚拟现实、游戏开发以及电影和视频制作等。

MatterGen

MatterGen是由微软开发的生成式AI模型,专注于无机材料的设计与生成。它通过扩散过程逐步优化原子结构,生成稳定、多样化且符合特定性能要求的材料。支持化学组成、磁性、电子和机械性能等多维度约束,适用于逆向材料设计,提升新材料研发效率。已应用于能源、催化、电子等领域,推动材料科学进步。

OmniHuman

OmniHuman是字节跳动推出的多模态人类视频生成框架,基于单张图像和运动信号生成高逼真视频。支持音频、姿势及组合驱动,适用于多种图像比例和风格。采用混合训练策略和扩散变换器架构,提升生成效果与稳定性,广泛应用于影视、游戏、教育、广告等领域。

Gendo

Gendo是一款结合生成式AI技术的建筑可视化平台,通过生成对抗网络(GANs)和扩散模型等手段,帮助设计师快速创建逼真的建筑概念图,并支持从草图到最终图像的全周期操作,具备生成性编辑、风格迁移和文本到图像生成等功能,旨在提升设计效率与视觉沟通质量。