扩散模型 - 智狐AI导航

PlayDiffusion

PlayDiffusion是Play AI推出的音频编辑模型，基于扩散模型技术实现音频的精细编辑和修复。它将音频编码为离散标记序列，通过掩码处理和去噪生成高质量音频，保持语音连贯性和自然性。支持局部编辑、高效文本到语音合成、动态语音修改等功能，具有非自回归特性，提升生成速度与质量。适用于配音纠错、播客剪辑、实时语音互动等场景。

AI项目与工具 2025年06月11日 94 点赞 0 评论 819 浏览

MotionFix

MotionFix是一个开源的3D人体动作编辑工具，采用自然语言描述与条件扩散模型TMED相结合的方式，支持通过文本指令精准编辑3D人体动作。其主要功能包括文本驱动的动作编辑、半自动数据集构建、多模态输入处理及基于检索的评估指标。MotionFix适用于动画制作、游戏开发、虚拟现实等多个领域，为动作编辑提供了灵活性与精确性。

AI项目与工具 2025年06月12日 13 点赞 0 评论 818 浏览

OneDiffusion

OneDiffusion是一种多功能的大规模扩散模型，支持文本到图像生成、条件图像生成、图像理解等多种任务。它通过序列建模和流匹配框架实现灵活的图像生成能力，适用于艺术创作、广告设计、游戏开发等多个领域，具备高度的扩展性和统一性。

AI项目与工具 2025年06月12日 59 点赞 0 评论 818 浏览

SVDQuant

SVDQuant是一种由MIT研究团队开发的后训练量化技术，专注于通过4位量化减少扩散模型的内存占用和推理延迟。它利用低秩分支技术吸收量化异常值，支持DiT和UNet架构，并能无缝集成LoRAs。SVDQuant适用于移动设备、个人电脑、云计算平台及低功耗设备，可大幅提升图像生成和处理效率。

AI项目与工具 2025年06月12日 76 点赞 0 评论 818 浏览

DiffSplat

DiffSplat是一款高效的3D生成工具，能够根据文本或图像快速生成高质量的3D高斯点云。它基于预训练的文本到图像扩散模型，结合2D先验知识和3D渲染损失机制，确保生成内容在多视角下保持一致。支持文本、图像或组合输入，具备可控生成能力，适用于3D内容创作、图像重建及多种下游应用。

AI项目与工具 2025年06月12日 72 点赞 0 评论 818 浏览

Gemini Diffusion

Gemini Diffusion是谷歌推出的实验性文本扩散模型，通过逐步细化噪声生成文本，具备快速响应、生成更连贯文本和迭代细化等能力。与传统自回归模型不同，它能并行生成文本，提高效率。在外部基准测试中表现优异，速度更快，适用于内容创作、代码生成、数学问题解答和文本编辑等场景。用户需加入等待名单获取访问权限。

AI项目与工具 2025年06月11日 48 点赞 0 评论 817 浏览

ICEdit

ICEdit是由浙江大学与哈佛大学联合开发的指令式图像编辑框架，基于扩散变换器实现自然语言驱动的图像修改。支持多轮编辑、风格转换、对象替换等功能，具有高效处理能力（单张图像约9秒）。采用LoRA-MoE混合微调策略，降低资源需求，适用于创意设计、影视制作、社交媒体等多个领域。开源且提供在线体验，便于研究与应用。

AI项目与工具 2025年06月11日 85 点赞 0 评论 808 浏览

SPAR3D

SPAR3D是一种基于两阶段设计的单图像3D重建工具，能从单张2D图像生成高质量的3D网格。它结合点扩散模型与三平面Transformer技术，实现快速、精确的几何与纹理重建，并支持用户交互式编辑。适用于增强现实、影视制作、工业设计等多个领域。

AI项目与工具 2025年06月12日 86 点赞 0 评论 808 浏览

CogView4

CogView4是一款由智谱推出的开源文生图模型，具有60亿参数，支持中英文输入与高分辨率图像生成。在DPG-Bench基准测试中表现优异，达到当前开源模型的领先水平。模型具备强大的语义理解能力，尤其在中文文字生成方面表现突出，适用于广告设计、教育、儿童绘本及电商等领域。其技术架构融合扩散模型与Transformer，并采用显存优化技术提升推理效率。

AI项目与工具 2025年06月12日 83 点赞 0 评论 806 浏览

PartGen

PartGen是一款基于多视图扩散模型的3D对象生成与重建工具，可从文本、图像或现有3D模型生成由意义明确部分组成的三维对象。它具备自动部分分割、3D重建及基于文本指令的部分编辑等功能，广泛应用于3D打印、游戏开发、影视制作等领域，显著提升工作效率并优化用户体验。

AI项目与工具 2025年06月12日 74 点赞 0 评论 806 浏览

扩散模型

首页

扩散模型

列表

默认

浏览次数

发布日期