AvatarGO AvatarGO是由南洋理工大学、上海AI Lab和香港大学联合开发的AI框架,能够根据文本描述生成高质量的4D人体与物体交互场景。其核心在于利用LLM引导的接触重定位、空间感知的分数蒸馏采样和运动优化技术,实现精确的接触识别与动画生成,有效解决穿透问题。支持多种人物与物体组合,适用于虚拟导购、展厅讲解、VR/AR内容创作等多个领域。 AI项目与工具 2025年06月12日 17 点赞 0 评论 593 浏览
VideoDrafter 一个高质量视频生成的开放式扩散模型,相比之前的生成视频模型,VideoDrafter最大的特点是能在主体不变的基础上,一次性生成多个场景的视频。 Ai开源项目 2025年06月05日 89 点赞 0 评论 591 浏览
I2VEdit I2VEdit是一款基于图像到视频扩散模型的先进视频编辑框架,通过首帧编辑实现全视频效果传播。它能够保持视频的时间和运动一致性,支持局部与全局编辑任务,包括更换对象、风格转换等,并广泛应用于社交媒体内容创作、视频后期制作、虚拟试穿等领域。 AI项目与工具 2025年06月12日 19 点赞 0 评论 589 浏览
Diff Diff-Instruct是一种基于积分Kullback-Leibler散度的知识迁移方法,用于从预训练扩散模型中提取知识并指导生成模型的训练。它能够在无需额外数据的情况下,通过最小化IKL散度提升生成模型的性能。Diff-Instruct适用于多种场景,包括预训练扩散模型的蒸馏、现有GAN模型的优化以及视频生成等。 AI项目与工具 2025年06月12日 61 点赞 0 评论 585 浏览
MarDini MarDini是一款融合掩码自回归(MAR)和扩散模型(DM)的先进视频生成工具,支持视频插值、图像到视频生成、视频扩展等多种任务。它通过优化计算资源分配,提高了视频生成的效率与灵活性,并具备从无标签数据中进行端到端训练的能力,展现出强大的可扩展性与效率。 AI项目与工具 2025年06月12日 44 点赞 0 评论 585 浏览
HoloTime HoloTime 是由北京大学深圳研究生院与鹏城实验室联合开发的全景 4D 场景生成框架,可将单张全景图像转化为动态视频,并进一步重建为沉浸式 4D 场景。其核心技术包括全景动画生成器(Panoramic Animator)和时空重建技术,结合 360World 数据集进行训练,实现高质量的视频生成与场景重建。该工具支持 VR/AR 应用,适用于虚拟旅游、影视制作、游戏开发等多个领域,提供高效的沉 AI项目与工具 2025年06月11日 20 点赞 0 评论 584 浏览
IterComp IterComp是一种基于迭代反馈学习机制的文本到图像生成框架,由多所顶尖高校的研究团队联合开发。它通过整合多个开源扩散模型的优势,利用奖励模型和迭代优化策略,显著提升了生成图像的质量和准确性,尤其在多类别对象组合与复杂语义对齐方面表现突出,同时保持较低的计算开销。IterComp适用于艺术创作、游戏开发、广告设计、教育和媒体等多个领域。 AI项目与工具 2025年06月12日 31 点赞 0 评论 582 浏览
VPP VPP(Video Prediction Policy)是清华大学与星动纪元联合开发的AIGC机器人模型,基于视频扩散模型实现未来场景预测与动作生成。支持高频预测与跨机器人本体学习,显著降低对真实数据的依赖。在复杂任务中表现出色,适用于家庭、工业、医疗、教育等多个领域。其开源特性推动了具身智能机器人技术的发展。 AI项目与工具 2025年06月11日 61 点赞 0 评论 581 浏览
MegaTTS 3 MegaTTS 3是由字节跳动与浙江大学合作开发的零样本文本到语音合成系统,采用轻量级扩散模型,支持中英文及混合语音合成,具备语音克隆、音色控制、韵律调节等功能。系统通过分解语音属性实现精准建模,可快速生成高质量语音,适用于教育、内容制作、语音交互等多个领域。 AI项目与工具 2025年06月12日 29 点赞 0 评论 575 浏览
DiTCtrl DiTCtrl是一种基于多模态扩散变换器架构的视频生成工具,能够利用多个文本提示生成连贯且高质量的视频内容,无需额外训练即可实现零样本多提示视频生成。它通过KV共享和潜在混合策略优化不同提示间的平滑过渡,同时在MPVBench基准上表现出色,适用于电影、游戏、广告及新闻等多个领域。 AI项目与工具 2025年06月12日 18 点赞 0 评论 574 浏览