多模态

BGE

BGE-VL是由北京智源研究院联合高校开发的多模态向量模型,基于大规模合成数据MegaPairs训练,具备高效的多模态数据合成方法和强大的泛化能力。它支持图文检索、组合图像检索和多模态嵌入等功能,适用于智能搜索、内容推荐、图像编辑辅助等多个领域。模型在多种任务中表现优异,尤其在组合图像检索方面取得显著成果。

RAGFlow

RAGFlow是一个开源的RAG(Retrieval-Augmented Generation)引擎,通过深度学习模型解析和理解文档内容,并增强生成能力。它提供了多种功能,包括自动化工作流、包管理、安全漏洞检测与修复、即时开发环境、AI辅助代码编写以及代码审查。RAGFlow的技术原理涵盖了文档理解、检索增强、生成模型、注意力机制、多模态处理、上下文融合和优化算法。该工具适用于内容创作辅助、数据摘

Insert Anything

Insert Anything是由多所高校联合开发的图像插入框架,支持多种场景下的对象无缝融合,如艺术创作、虚拟试穿和影视特效等。基于大规模数据集训练,具备高分辨率输出与语义一致性保障。用户可通过掩码或文本指令实现精准控制,适用于创意设计与数字内容生成领域。

Ovis2

Ovis2是阿里巴巴国际团队开发的多模态大语言模型,采用结构化嵌入对齐技术提升视觉与文本的融合效果。支持视频、图像和多语言处理,强化了思维链推理和复杂场景下的OCR能力。提供多个参数规模的版本,适用于研究、开发及各类应用场景,展现卓越性能。

FlagevalMM

FlagEvalMM是一个由北京智源人工智能研究院开发的开源多模态模型评测框架,专注于评估处理文本、图像、视频等多模态任务的模型性能。它支持多种任务和指标,采用解耦评测与推理的设计,提供统一的评测流程,集成丰富模型库并兼容多种后端引擎。该工具适用于学术研究、工业应用、模型开发、教育领域及内容创作等多个场景。

XMusic

XMusic是腾讯多媒体实验室开发的AI作曲框架,支持多模态输入(如图片、文字、视频等)生成情绪、风格、节奏可控的高质量音乐。其核心技术包括多模态解析、符号音乐表示与生成优化,具备商用级音乐生成能力。适用于视频配乐、互动娱乐、音乐教育、辅助创作及音乐治疗等多个场景,有效降低音乐创作门槛,提升创作效率与个性化体验。

ImageBind

ImageBind是由Meta公司开发的开源多模态AI模型,能够整合文本、音频、视觉、温度和运动数据等多种模态的信息,并将其统一到一个嵌入空间中。该模型通过图像模态实现其他模态数据的隐式对齐,支持跨模态检索和零样本学习。它在增强现实(AR)、虚拟现实(VR)、内容推荐系统、自动标注和元数据生成等领域有广泛应用。

Responses API

Responses API 是 OpenAI 推出的 AI 代理开发核心接口,结合对话生成与工具调用能力,支持多轮交互与复杂任务处理。具备流式事件处理、统一 Item 结构设计、多态性简化等功能,内置网页搜索、文件搜索和计算机使用等工具。适用于智能客服、市场分析、内容创作等多个领域,提供灵活的定价模式,提升开发效率与用户体验。

灵犀 X2

灵犀 X2 是智元机器人推出的双足人形机器人,具备 28 个自由度和高灵活性,可完成跳舞、奔跑、骑车等复杂动作。搭载 Diffusion 动作生成引擎和多模态交互系统,支持情感识别与毫秒级响应。适用于家庭服务、教育、医疗护理、工业协作及娱乐场景,具备强大的环境感知与任务执行能力。

II

II-Agent 是一个开源的 Agent 框架,通过与大型语言模型(LLM)交互,简化和提升跨领域的工作流程。其核心功能包括研究与事实核查、内容生成、数据分析与可视化、软件开发、工作流自动化及问题解决等。具备动态上下文提示、智能 token 管理、规划与反思能力、多模态处理以及实时通信等功能。支持 CLI 和 WebSocket 接口,适用于智能客服、金融投顾、医疗诊断和教育辅导等多种场景。