扩散模型

FantasyTalking

FantasyTalking是一种由阿里巴巴AMAP团队与北京邮电大学联合开发的AI工具,能够从静态肖像生成高质量、可动画化的虚拟形象。该工具采用双阶段视听对齐策略,结合面部专注的交叉注意力模块和运动强度调制模块,实现精准口型同步、丰富表情生成及全身动作控制。支持多种风格和姿态,适用于游戏、影视、VR/AR、虚拟主播及教育等领域。

SnapGen

SnapGen是一款由Snap Inc、香港科技大学和墨尔本大学联合开发的文本到图像扩散模型,专为移动设备设计,支持在1.4秒内生成1024×1024像素的高分辨率图像。它通过优化网络架构、跨架构知识蒸馏和对抗性训练等技术,在保持小模型规模的同时,提供了高质量的图像生成能力,适用于社交媒体、移动应用、教育、新闻等多个领域。

Add

Add-it是一款无需训练的图像编辑工具,允许用户通过文本指令在图像中插入新对象。其核心功能包括保持场景结构一致性、确保对象自然融合、支持非真实感图像处理等。Add-it采用扩展的注意力机制和主题引导潜在混合技术,无需额外训练即可实现高质量图像编辑。广泛适用于广告、内容创作、影视制作等领域。

CSGO AI

CSGO是一项由南京理工大学等机构合作研发的图像风格迁移与文本到图像生成研究项目。其主要功能包括图像驱动的风格迁移、文本驱动的风格化合成及文本编辑驱动的风格化合成。项目通过端到端训练模型、特征注入技术及扩散模型,实现高效且高质量的图像生成,广泛应用于艺术创作、数字娱乐、设计行业及广告营销等领域。

HoloPart

HoloPart 是一种基于扩散模型的 3D 分割工具,能准确识别并补全被遮挡的语义部件,支持几何与材质编辑等任务。其两阶段方法结合局部与全局注意力机制,提升分割精度与一致性。适用于动画制作、几何优化及数据生成等领域,已在多个数据集上取得优异性能。

EyeDiff

EyeDiff是一款基于扩散模型的文本到图像生成工具,专为多模态眼科图像生成设计。通过自然语言提示,EyeDiff能够捕捉常见及罕见眼病的关键特征,显著提升诊断准确性。该工具采用CLIP文本编码器与交叉注意力机制,结合潜在扩散模型(LDM),生成高质量、与文本高度一致的图像,适用于数据增强、疾病筛查、数据共享及医学教育等场景。

StochSync

StochSync是一种基于扩散同步(DS)和分数蒸馏采样(SDS)的图像生成技术,适用于360°全景图和3D纹理生成。它通过引入最大随机性与多步去噪方法,兼顾图像细节与连贯性,无需额外训练即可生成高质量图像。支持高分辨率输出,适用于复杂几何纹理化任务。

Sonauto AI

一款AI音乐生成器,允许用户通过将文本提示、歌词或旋律转换为完整的不同风格的歌曲。它采用了潜在扩散模型,这使得它与其他人工智能音乐生成模型相比更加可控。

混元DiT

混元DiT(Hunyuan-DiT)是腾讯混元团队开源的高性能文本到图像的扩散Transformer模型,具备细粒度的中英文理解能力,能够生成多分辨率的高质量图像。该模型结合了双语CLIP和多语言T5编码器,通过精心设计的数据管道进行训练和优化。混元DiT的主要功能包括双语文本到图像生成、细粒度中文元素理解、长文本处理能力、多尺寸图像生成、多轮对话和上下文理解、高一致性和艺术性。此外,混元DiT在

EasyControl Ghibli

EasyControl Ghibli 是一款基于扩散模型的 AI 工具,专注于将普通图像转换为吉卜力风格,具备风格迁移、面部特征保留、高效运行等优点。它通过少量数据训练即可生成高质量图像,适用于插画、动画、广告及个人照片风格化等多种场景。用户可免费使用,操作便捷,适合艺术创作与内容生成需求。