GigaTok 是一种用于自回归图像生成的视觉分词器,拥有 30 亿参数规模。该工具通过语义正则化技术,将分词器特征与预训练视觉编码器(如 DINOv2)的语义特征对齐,从而有效控制潜在空间复杂度,缓解了在模型扩展过程中重建质量与生成质量之间的矛盾。GigaTok 采用一维分词器架构,提升可扩展性,并优先扩展解码器以优化计算资源分配。同时,引入熵损失机制,增强大规模模型训练的稳定性。 其核心功能包括:高质量图像重建、提升下游生成性能、优化表示学习、创新的扩展策略等。技术原理涵盖混合架构设计、语义正则化、非对称扩展策略和熵损失机制。GigaTok 可应用于图像生成与合成、图像编辑与增强、数据增强与预训练、多模态学习以及医学图像处理等多个领域。 项目提供了官方网页、GitHub 仓库及 arXiv 技术论文链接,方便研究者查阅与使用。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部