Long

简介：Long-VITA是一款由腾讯优图实验室、南京大学和厦门大学联合开发的多模态AI模型，支持处理超长文本（超过100万tokens）及多模态输入（图像、视频、文本）。通过分阶段训练提升上下文理解能力，结合动态分块编码器与并行推理技术，实现高效处理长文本和高分辨率图像。模型基于开源数据训练，适用于视频分析、图像识别、长文本生成等场景，性能在多个基准测试中表现突出。

AI小编 855 阅读 0 评论 65 点赞

项目地址

Long-VITA是由腾讯优图实验室、南京大学和厦门大学联合开发的多模态模型，具备处理超长文本输入的能力，支持超过100万tokens的输入长度。该模型通过分阶段训练逐步增强视觉与语言的上下文理解能力，能够处理图像、视频和文本等多种模态的数据。其采用动态分块编码器处理高分辨率图像，并结合上下文并行分布式推理技术，实现对无限长度输入的支持。Long-VITA基于开源数据集进行训练，涵盖漫画摘要、电影剧情等长文本内容，在多个多模态基准测试中取得了优异成绩。

本文分类：AI项目与工具
本文标签：多模态模型长文本处理图像分析视频理解开源AI 上下文扩展动态分块分布式推理人工智能自然语言处理
浏览次数：855 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://tools.sihangdaima.com/AIxiangmuyugongju/8932.html

评论列表共有 0 条评论

暂无评论

Long

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复