Long-VITA是由腾讯优图实验室、南京大学和厦门大学联合开发的多模态模型,具备处理超长文本输入的能力,支持超过100万tokens的输入长度。该模型通过分阶段训练逐步增强视觉与语言的上下文理解能力,能够处理图像、视频和文本等多种模态的数据。其采用动态分块编码器处理高分辨率图像,并结合上下文并行分布式推理技术,实现对无限长度输入的支持。Long-VITA基于开源数据集进行训练,涵盖漫画摘要、电影剧情等长文本内容,在多个多模态基准测试中取得了优异成绩。
Long-VITA是由腾讯优图实验室、南京大学和厦门大学联合开发的多模态模型,具备处理超长文本输入的能力,支持超过100万tokens的输入长度。该模型通过分阶段训练逐步增强视觉与语言的上下文理解能力,能够处理图像、视频和文本等多种模态的数据。其采用动态分块编码器处理高分辨率图像,并结合上下文并行分布式推理技术,实现对无限长度输入的支持。Long-VITA基于开源数据集进行训练,涵盖漫画摘要、电影剧情等长文本内容,在多个多模态基准测试中取得了优异成绩。
发表评论 取消回复