多模态

ModelEngine

ModelEngine 是华为开源的全流程 AI 开发工具链,涵盖数据处理、模型训练与应用开发三大核心模块。支持多模态数据清洗、知识向量化及模型推理,提供低代码编排和 RAG 框架,适用于医疗、金融、制造等领域的 AI 应用开发与行业化落地。

AudioX

AudioX 是一种基于多模态输入的音频生成模型,支持文本、视频、图像等多种输入方式,能够生成高质量的音频和音乐。其核心创新在于多模态掩码训练策略,提升了跨模态理解和生成能力。具备零样本生成、自然语言控制及强大的泛化能力,适用于视频配乐、动画音效、音乐创作等多个场景。

智谱API-免费领取

新用户免费领1亿tokens,基于领先的千亿级多语言、多模态预训练模型,打造高效率、通用化的“模型即服务”AI开发新范式。

MCA

MCA-Ctrl是由中科院计算所与国科大联合开发的图像定制生成框架,通过引入SAGI和SALQ注意力控制策略及主体定位模块,提升图像生成质量与一致性。支持零样本图像生成,适用于主体特征保持、背景一致性维护等多种任务,广泛应用于数字内容创作、广告设计、艺术创作等领域。

BuboGPT | 字节大模型

BuboGPT是由字节跳动开发的大型语言模型,能够处理多模态输入,包括文本、图像和音频,并具有将其响应与视觉对象相对应的独特能力。

GenMAC

GenMAC是一款基于多代理协作的迭代框架,旨在解决文本到视频生成中的复杂场景生成问题。它通过任务分解为设计、生成和重新设计三阶段,结合验证、建议、修正和输出结构化子任务,利用自适应自路由机制优化视频生成效果。该工具可应用于电影制作、游戏开发、广告设计、教育培训和新闻报道等多个领域,显著提升视频生成的效率和质量。

Florence

Florence-2是微软Azure AI团队研发的多功能视觉模型,支持图像描述、目标检测、视觉定位和图像分割等功能。该模型基于Transformer架构,采用序列到序列学习方法,利用自注意力机制实现多模态信息融合。通过训练大规模数据集,Florence-2在多个应用场景中表现出色,包括图像和视频分析、内容审核、辅助驾驶、医疗影像分析以及零售和库存管理。

PP

PP-DocBee是百度飞桨推出的多模态文档理解模型,基于ViT+MLP+LLM架构,支持文字、表格、图表等多类型文档内容的精准识别与解析。具备高效的推理性能和高质量输出,适用于文档问答、信息提取等场景,支持灵活部署,为文档处理提供智能化解决方案。

Mobile

Mobile-Agent 是一种具备移动能力的智能代理系统,能够跨设备执行任务并优化资源使用。基于多模态大语言模型和视觉感知技术,支持自动操作、自我规划与反思,适用于多应用协同、跨平台操作及纯视觉交互。其技术架构包含多个智能体协作机制,提升了移动设备任务处理的效率与灵活性。

EMO2

EMO2是一种由阿里巴巴智能计算研究院开发的音频驱动头像视频生成技术,通过音频输入和静态人像照片生成高质量、富有表现力的动态视频。其核心技术包括音频与手部动作的协同建模、扩散模型生成视频帧,以及高精度音频同步。该工具支持多样化动作生成,适用于虚拟现实、动画制作和跨语言内容创作等场景,具备自然流畅的视觉效果和丰富的应用场景。