扩散模型 - 智狐AI导航

MMaDA

MMaDA（Multimodal Large Diffusion Language Models）是由普林斯顿大学、清华大学、北京大学和字节跳动联合开发的多模态扩散模型，支持跨文本推理、多模态理解和文本到图像生成等多种功能。其采用统一的扩散架构和模态不可知设计，结合混合长链推理微调策略与UniGRPO强化学习算法，提升跨模态任务性能。MMaDA在多项任务中表现优异，适用于内容创作、教育辅助、智能客

AI项目与工具 2025年06月11日 80 点赞 0 评论 725 浏览

IterComp

IterComp是一种基于迭代反馈学习机制的文本到图像生成框架，由多所顶尖高校的研究团队联合开发。它通过整合多个开源扩散模型的优势，利用奖励模型和迭代优化策略，显著提升了生成图像的质量和准确性，尤其在多类别对象组合与复杂语义对齐方面表现突出，同时保持较低的计算开销。IterComp适用于艺术创作、游戏开发、广告设计、教育和媒体等多个领域。

AI项目与工具 2025年06月12日 31 点赞 0 评论 722 浏览

I2VEdit

I2VEdit是一款基于图像到视频扩散模型的先进视频编辑框架，通过首帧编辑实现全视频效果传播。它能够保持视频的时间和运动一致性，支持局部与全局编辑任务，包括更换对象、风格转换等，并广泛应用于社交媒体内容创作、视频后期制作、虚拟试穿等领域。

AI项目与工具 2025年06月12日 19 点赞 0 评论 722 浏览

UniVG

百度公司推出的视频生成模型，能够以文本和图像的任意组合作为输入条件进行视频生成。

Ai开源项目 2025年06月05日 22 点赞 0 评论 720 浏览

MarDini

MarDini是一款融合掩码自回归（MAR）和扩散模型（DM）的先进视频生成工具，支持视频插值、图像到视频生成、视频扩展等多种任务。它通过优化计算资源分配，提高了视频生成的效率与灵活性，并具备从无标签数据中进行端到端训练的能力，展现出强大的可扩展性与效率。

AI项目与工具 2025年06月12日 44 点赞 0 评论 719 浏览

DragAnything

DragAnything 是一款由快手与高校联合研发的视频生成工具，通过实体表示和轨迹输入实现对视频中物体的精确运动控制。它支持多实体独立操作、相机运动调整，并采用扩散模型生成高质量视频内容。具备用户友好的交互方式，适用于视频编辑、游戏开发、教育及广告等多个场景。

AI项目与工具 2025年06月12日 74 点赞 0 评论 717 浏览

VideoAnydoor

VideoAnydoor是一款由多所高校与研究机构联合开发的视频对象插入系统，基于文本到视频的扩散模型，支持高保真对象插入与精确运动控制。其核心模块包括ID提取器和像素变形器，能实现对象的自然融合与细节保留。该工具适用于影视特效、虚拟试穿、虚拟旅游、教育等多个领域，具备良好的通用性和扩展性。

AI项目与工具 2025年06月12日 61 点赞 0 评论 716 浏览

GAS

GAS是一种从单张图像生成高质量、视角一致且时间连贯虚拟形象的AI工具，结合3D人体重建与扩散模型技术，支持多视角合成与动态姿态动画。其统一框架提升模型泛化能力，适用于游戏、影视、体育及时尚等领域，具备高保真度与真实感。

AI项目与工具 2025年06月12日 36 点赞 0 评论 716 浏览

MegaTTS 3

MegaTTS 3是由字节跳动与浙江大学合作开发的零样本文本到语音合成系统，采用轻量级扩散模型，支持中英文及混合语音合成，具备语音克隆、音色控制、韵律调节等功能。系统通过分解语音属性实现精准建模，可快速生成高质量语音，适用于教育、内容制作、语音交互等多个领域。

AI项目与工具 2025年06月12日 29 点赞 0 评论 715 浏览

OOTDiffusion

OOTDiffusion是一款开源AI虚拟试衣工具，支持根据用户上传的模特和服装图片生成自然贴合的试穿效果，具有智能适配、多种试穿模式及快速生成等特点。它通过预训练扩散模型、Outfitting UNet、Outfitting Fusion等技术实现高质量服装图像生成，适用于电商、设计、定制服务等多个领域。

AI项目与工具 2025年06月12日 81 点赞 0 评论 714 浏览

扩散模型

首页

扩散模型

列表

默认

浏览次数

发布日期