LongAlign是由香港大学研究团队开发的一种针对文本到图像(T2I)扩散模型的改进方法,专注于提升长文本输入的对齐精度。该方法采用段级编码技术,将长文本分割成多个片段进行独立处理,从而适应编码模型的输入限制。此外,LongAlign引入了分解偏好优化技术,通过区分文本相关与无关部分,并赋予不同权重,有效减少了过拟合现象,增强了模型的对齐效果。经过20小时的微调,LongAlign显著提升了Stable Diffusion v1.5模型在长文本对齐任务上的表现,优于PixArt-α和Kandinsky v2.2等领先模型。
发表评论 取消回复