Long-VITA是由腾讯优图实验室、南京大学和厦门大学联合开发的多模态模型,具备处理超长文本输入的能力,支持超过100万tokens的输入长度。该模型通过分阶段训练逐步增强视觉与语言的上下文理解能力,能够处理图像、视频和文本等多种模态的数据。其采用动态分块编码器处理高分辨率图像,并结合上下文并行分布式推理技术,实现对无限长度输入的支持。Long-VITA基于开源数据集进行训练,涵盖漫画摘要、电影剧情等长文本内容,在多个多模态基准测试中取得了优异成绩。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部