多模态

Florence

Florence-2是微软Azure AI团队研发的多功能视觉模型,支持图像描述、目标检测、视觉定位和图像分割等功能。该模型基于Transformer架构,采用序列到序列学习方法,利用自注意力机制实现多模态信息融合。通过训练大规模数据集,Florence-2在多个应用场景中表现出色,包括图像和视频分析、内容审核、辅助驾驶、医疗影像分析以及零售和库存管理。

UniTok

UniTok是由字节跳动联合高校研发的统一视觉分词器,支持视觉生成与理解任务。其采用多码本量化技术,将视觉特征分割并独立量化,显著提升离散token的表示能力。在ImageNet上实现78.6%的零样本分类准确率,图像重建质量达0.38。可作为多模态大语言模型的视觉输入模块,广泛应用于图像生成、视觉问答、内容创作及跨模态检索等场景。

UniToken

UniToken 是一种面向多模态理解与生成任务的自回归模型,结合了离散与连续视觉表示,实现对图像语义与细节的全面捕捉。它支持图文理解、图像生成、多模态对话、复杂指令执行等多种任务,并具备细粒度视觉处理能力。适用于内容创作、智能客服、教育、医疗及自动驾驶等多个领域。

有言

是一个一站式AIGC视频创作平台,它提供了一个无需拍摄、剪辑和后期处理的解决方案,能够一键生成3D视频。

Pangea

Pangea是一款由卡内基梅隆大学团队开发的多语言多模态大型语言模型,支持39种语言,具备多模态理解和跨文化覆盖能力。其主要功能包括多语言文本生成与理解、图像描述、视觉问答等,同时通过高质量指令和文化相关任务优化性能。Pangea基于丰富的数据集和先进的模型架构,适用于多语言客户服务、教育、跨文化交流等多个领域。

VideoLLaMA3

VideoLLaMA3 是阿里巴巴开发的多模态基础模型,支持视频与图像的深度理解和分析。基于 Qwen 2.5 架构,结合先进视觉编码器与语言生成能力,具备高效时空建模与多语言处理能力。适用于视频内容分析、视觉问答、字幕生成等场景,提供多种参数版本,支持灵活部署。

Mistral Small 3.1

Mistral Small 3.1 是一款由 Mistral AI 开发的开源多模态 AI 模型,拥有 240 亿参数,支持文本与图像处理,具备长达 128k tokens 的上下文窗口和每秒 150 token 的推理速度。采用 Transformer 架构与 MoE 技术,提升计算效率,支持多语言和本地部署。适用于文档处理、图像分析、质量检测、虚拟助手等多种场景。

自由画布

百度文库和百度网盘联合推出的一款产品,自由画布打通了公域与个人授权的私域内容,支持对多格式、全模态文件的混合理解、生成、创作,并实现了一键分享和存储。

飞书知识问答

飞书知识问答是一款基于AI技术的企业级知识管理工具,支持多数据源接入与实时搜索,提供结构化答案生成、智能问答、标准问答库管理等功能。支持多模态回答,兼容多种AI模型,适用于知识管理、智能客服、团队协作等场景,提升信息处理效率与准确性。

吱意

吱意是一款可以适用于图片翻译、文档翻译,视频翻译等场景的在线工具。同时,吱意还提供多模态翻译和智能配音,AI写作,AI成画等AIGC人工智能创作等服务。