多模态

Cradle

一个通用计算机控制的多模态AI框架,它可以使AI Agent能够像人类一样,能够直接控制键盘和鼠标,实现与任意开源代码或闭源代码软件的交互。

AndroidLab

AndroidLab 是一款面向 Android 自主代理的训练与评估框架,集成了文本和图像模态操作环境,提供标准化的基准测试任务。它通过支持多种模型类型(LLMs 和 LMMs),覆盖九个应用场景的 138 项任务,有效提升了开源模型的性能。此外,AndroidLab 提供了丰富的评估指标和操作模式,助力研究者优化模型表现并推动开源解决方案的发展。

Janus

Janus是一种由DeepSeek AI开发的自回归框架,专注于多模态理解和生成任务的统一化。它通过分离视觉编码路径并使用单一Transformer架构来提升灵活性和性能,支持多种输入模态如图像、文本等,并在某些任务中表现出色。Janus具备多模态理解、图像生成及跨模态交互能力,适用于图像创作、自动标注、视觉问答等多个领域。

FlexRAG

FlexRAG 是一个高效的检索增强生成(RAG)框架,通过压缩编码器和选择性压缩机制优化长上下文处理,提升计算效率与生成质量。支持多模态数据、多种检索器和多数据类型,适用于开放域问答、对话系统、文档摘要等知识密集型任务,具备灵活配置和可扩展性。

Diff

Diff-Instruct是一种基于积分Kullback-Leibler散度的知识迁移方法,用于从预训练扩散模型中提取知识并指导生成模型的训练。它能够在无需额外数据的情况下,通过最小化IKL散度提升生成模型的性能。Diff-Instruct适用于多种场景,包括预训练扩散模型的蒸馏、现有GAN模型的优化以及视频生成等。

OmniAudio

OmniAudio-2.6B是一款专为边缘设备设计的高性能音频语言模型,具备语音识别、转录、问答、对话生成及内容创作等核心功能。其技术优势在于多模态架构的高效集成、稀疏性利用以及三阶段训练流程,支持FP16和Q4_K_M量化版本,确保在资源受限的环境下仍能稳定运行。OmniAudio-2.6B可应用于智能助手、车载系统、会议记录、教育和医疗等多个领域,为用户提供便捷、高效的语音交互体验。

童语故事iMageStoryAi

一个基于数字分身和故事模型的AI儿童故事生成类Al产品,童语故事iMageStoryAi通过Al能力创造无限的潜能,让每个孩子健康快乐成长。

书生

书生通用大模型体系是一套全面、高效的AI解决方案,涵盖了语言处理、多模态分析、气象预报、翼型设计和三维建模等多个领域。

InternVL

InternVL是由上海人工智能实验室开发的多模态大模型,融合视觉与语言处理能力,支持图像、视频、文本等多种输入。其基于ViT-MLP-LLM架构,具备多模态理解、多语言处理、文档解析、科学推理等能力,广泛应用于视觉问答、智能客服、图像分析等领域。模型采用动态高分辨率与渐进式训练策略,提升处理效率与准确性。

讯飞智能交互机

讯飞智能交互机是一款基于AI技术的交互设备,支持多模态感知与多维表达,提供沉浸式虚拟人交互体验。用户可自定义虚拟人形象和语音,接入讯飞星火大模型以增强交互能力。广泛应用于智能客服、导览讲解、政务服务等领域,提升服务效率与用户体验。