AnyStory是由阿里巴巴通义实验室研发的文本到图像生成框架,能够实现单个或多个主体的高保真个性化图像生成。该系统采用“编码-路由”方法,通过ReferenceNet和CLIP视觉编码器对主体特征进行高精度建模,确保图像细节与语义信息的准确表达。在路由阶段,解耦的实例感知主体路由器可精准识别并引导主体条件注入,有效避免多主体图像生成中的混淆问题,保障每个主体的独特性。 AnyStory的技术架构包括编码、路由和训练三个阶段。其中,ReferenceNet支持高分辨率输入,并与去噪U-Net特征空间对齐;CLIP视觉编码器则用于提取主体的粗略概念,提升图像与文本描述的一致性。路由机制通过独立分支预测主体位置,并结合正则化损失优化路由效果,从而实现更精确的图像生成控制。 AnyStory适用于创意绘画、概念设计、角色设定、漫画创作及个性化广告等多个领域,为用户提供高效、高质量的图像生成解决方案。
发表评论 取消回复