一致性

VISION XL

VISION XL是一款基于潜在扩散模型的视频修复与超分辨率工具,支持视频去模糊、超分辨率提升、视频修复及帧平均等功能。它采用伪批一致性采样、批量一致性反演等技术,显著提高了处理效率和视频质量。VISION XL广泛应用于电影修复、监控视频增强、体育赛事直播等领域,能够满足高质量视频需求。

Hallo3

Hallo3是由复旦大学与百度联合开发的基于扩散变换器网络的肖像动画生成技术,能够生成多视角、动态且逼真的视频内容。其核心功能包括身份一致性保持、语音驱动动画、动态对象渲染和沉浸式背景生成。技术上采用预训练变换器模型,结合身份参考网络与音频条件机制,实现高质量视频生成。适用于游戏开发、影视制作、社交媒体及VR/AR等多个领域。

MUMU

MUMU是一种多模态图像生成模型,通过结合文本提示和参考图像来生成目标图像,提高生成的准确性和质量。该模型基于SDXL的预训练卷积UNet,并融合了视觉语言模型Idefics2的隐藏状态。MUMU能够在风格转换和角色一致性方面展现强大的泛化能力,同时在生成图像时能够很好地保留细节。主要功能包括多模态输入处理、风格转换、角色一致性、细节保留以及条件图像生成。

T2V

T2V-Turbo 是一种高效的文本到视频生成模型,能够快速生成高质量视频,同时确保文本与视频的高度一致性。它通过一致性蒸馏技术和混合奖励机制优化生成过程,适用于电影制作、新闻报道、教育及营销等多个领域,支持从创意草图到成品视频的全流程加速。

ConsistentDreamer

ConsistentDreamer 是由华为慕尼黑研究中心开发的图像到 3D 资产生成技术,能通过单张图像生成多视图一致的 3D 网格。该技术采用多视图先验图像引导和分数蒸馏采样优化,结合动态权重平衡和多种损失函数,提升 3D 表面质量和纹理精度。支持复杂场景编辑、风格转换、物体修改等功能,适用于室内场景、艺术风格转换及跨视图一致性任务。

StableV2V

StableV2V是一款基于文本、草图和图片输入的开源视频编辑工具,利用Prompted First-frame Editor(PFE)、Iterative Shape Aligner(ISA)和Conditional Image-to-video Generator(CIG)三大模块,实现视频中物体的精准编辑与替换,同时保持编辑内容与原始视频在动作和深度信息上的高度一致性,适用于电影制作、教育、

Piktochart

一款AI驱动的信息图表制作工具,允许您创建专业而漂亮的信息图表、传单、海报、报告、通讯和图表。无需任何设计经验。

AtomoVideo

AtomoVideo是一款高保真图像到视频生成框架,能够从静态图像生成高质量视频内容。它通过多粒度图像注入和高质量数据集及训练策略,保证生成视频与原始图像的高度一致性和良好的时间连贯性。此外,AtomoVideo还支持长视频生成、文本到视频生成以及个性化和可控生成等功能。

MagicTryOn

MagicTryOn是由浙江大学和vivo等机构开发的视频虚拟试穿框架,采用扩散Transformer(DiT)架构替代传统U-Net,结合全自注意力机制实现视频时空一致性建模。通过粗到细的服装保持策略,整合服装标记与多条件引导,有效保留服装细节。该工具在图像和视频试穿任务中表现优异,适用于在线购物、时尚设计、虚拟试衣间等多种场景。

FlexIP

FlexIP 是腾讯推出的图像合成框架,支持在保持主体身份的同时进行个性化编辑。其双适配器架构分离身份保持与编辑功能,结合动态权重门控机制实现灵活控制,并通过多模态数据训练提升生成质量与稳定性,适用于艺术创作、广告设计、影视制作等多个领域。