EliGen简介
EliGen是由浙江大学与阿里巴巴集团联合研发的新型实体级可控图像生成框架。该框架通过引入区域注意力机制,无需额外参数即可将实体提示和任意形状的空间掩码无缝集成到扩散变换器中。EliGen基于一个包含50万高质量注释样本的数据集进行训练,确保模型在实体级操控方面具备高鲁棒性和准确性。此外,EliGen还提出了修复融合管道,支持多实体图像修复任务。
EliGen的主要功能
- 实体级精确控制:利用区域注意力机制,EliGen能够对图像中的每个实体进行位置、形状及语义属性的精准控制。
- 多实体图像修复:EliGen的修复融合管道可实现多实体图像修复,支持在单次前向传递中完成多个实体的修复操作。
- 风格化实体控制:结合IP-Adapter,EliGen可根据参考图像的风格生成目标图像,实现风格化的实体控制。
- 交互式图像设计与编辑:通过与MLLM(多模态语言模型)集成,EliGen支持基于对话的图像设计与编辑,用户可通过文本描述生成或修改图像。
- 模型集成能力:EliGen可与IP-Adapter、In-Context LoRA和MLLM等开源模型无缝对接,拓展创意应用的可能性。
- 强大的泛化能力:EliGen在不同随机种子、连续变化的实体位置以及不合理输入下仍能保持良好表现,生成高质量图像。
EliGen的技术原理
- 区域注意力机制:EliGen扩展了扩散变换器的注意力模块,支持处理任意形状的实体掩码。通过结合全局与局部提示,构建联合注意力掩码,实现无额外参数的实体细节控制。
- 高质量数据集构建:研究团队构建了包含50万高质量注释样本的数据集,用于训练EliGen,提升其在实体级操控上的性能。
- 训练与微调:EliGen采用LoRA方法进行高效微调,确保模型快速收敛,并应用于DiT的各个线性层。
- 修复融合管道:EliGen提出的修复融合管道支持多实体图像修复,在单次前向传递中完成修复操作,同时保障非修复区域的质量。
EliGen的项目地址
- arXiv技术论文:https://arxiv.org/pdf/2501.01097
EliGen的应用场景
- 虚拟场景生成:EliGen可生成高质量的虚拟场景,适用于游戏开发与虚拟现实应用。
- 角色与道具设计:支持对角色和道具进行精确控制,为虚拟世界提供设计工具。
- 大规模定制数据合成:EliGen的灵活控制能力可用于生成定制化数据,支持机器学习任务。
- 产品展示与宣传:EliGen可生成高质量的产品图像,满足广告与设计需求。
发表评论 取消回复