Ovis2是由阿里巴巴国际团队研发的新型多模态大语言模型,通过结构化嵌入对齐技术有效解决视觉与文本模态之间的差异。该模型在Ovis系列基础上进行了优化,提升了小规模模型的能力密度,并通过指令微调和偏好学习显著增强了思维链(CoT)推理能力。Ovis2具备视频和多图像处理能力,支持多语言环境下的复杂场景OCR任务。其模型版本涵盖1B、2B、4B、8B、16B和34B等多个参数规模,在OpenCompass多模态评测中表现优异,尤其在数学推理和视频理解方面具有突出优势。Ovis2的开源为多模态大模型的研究和应用提供了有力支持。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部