模型

OmniAlign

OmniAlign-V是由多所高校联合开发的多模态大语言模型对齐数据集,包含约20万个多模态样本,涵盖自然图像和信息图表。其核心功能包括提供高质量训练数据、提升模型的开放式问答能力、增强推理与创造力,并支持模型持续优化。数据集通过图像筛选、任务设计及后处理优化确保数据质量,适用于多模态对话系统、图像辅助问答、创意生成等多个应用场景。

天壤小白大模型

天壤自研新一代通用语言大模型,具备面向多语言的对话互动、知识问答、逻辑推理等核心能力。

SlideChat

SlideChat是一款先进的视觉语言助手,专注于处理和分析千兆像素级别的全切片病理图像。它具备强大的多模态对话能力和复杂指令响应能力,在显微镜检查、诊断等领域展现出卓越性能。通过两阶段训练机制,SlideChat实现了视觉与语言特征的有效对齐,并被广泛应用于病理诊断、医学教育、研究开发以及临床决策支持。 ---

DINO

DINO-X是一款由IDEA研究院开发的通用视觉大模型,具备开放世界对象检测与理解的能力。它支持多种提示类型,无需用户额外输入即可识别图像中的任意对象,并在多个基准测试中刷新了性能记录。DINO-X拥有Pro和Edge两个版本,分别针对高性能需求和边缘设备优化。其应用范围涵盖自动驾驶、智能安防、工业检测及机器人视觉等领域,助力行业创新与发展。

CogAgent

CogAgent是一款由清华大学与智谱AI联合开发的多模态视觉大模型,专注于图形用户界面(GUI)的理解与导航。它具备视觉问答、视觉定位、GUI Agent、高分辨率图像处理及多模态能力,可应用于自动化测试、智能交互、多模态人工智能应用开发、企业级AI Agent平台等多个领域。CogAgent在多个基准测试中表现出色,尤其在GUI操作数据集上显著超越现有模型。

LightEval

LightEval是一款由Hugging Face开发的轻量级AI评估工具,旨在评估大型语言模型。它支持多设备运行,包括CPU、GPU和TPU,具备多任务处理能力和自定义评估功能。LightEval与Hugging Face的生态系统集成,便于模型管理和共享。适用于企业、科研人员及教育机构。

汉语新解TextHuman

一个基于李继刚Prompt模板的项目,汉语新解对中文名词进行二次翻译,并生成美观的图像。TextHuman提供智能词汇解释,用户可以输入任何汉语词汇,获得AI生成的新颖解释。

Open Avatar Chat

Open Avatar Chat是阿里开源的模块化实时数字人对话系统,支持低延迟交互与多模态输入输出。系统采用模块化架构,允许灵活配置语音识别、语言模型和语音合成等组件,兼容本地与云服务。支持2D/3D数字人渲染,适用于客户服务、教育、娱乐及企业应用等多个场景,为开发者提供高效、灵活的AI对话解决方案。

MiniCPM 3.0

MiniCPM 3.0是一款由面壁智能开发的高性能端侧AI模型,具有40亿参数。它采用LLMxMapReduce技术,支持无限长文本处理,增强了上下文理解能力。MiniCPM 3.0在Function Calling方面表现出色,接近GPT-4o的水平。该模型还包括RAG三件套,提升了中文检索和内容生成的质量。模型已开源,量化后仅占用2GB内存,适合端侧设备部署,保障数据安全和隐私。

SongCreator

SongCreator是一款基于AI技术的音乐生成工具,由清华大学深圳国际研究生院与香港中文大学等机构联合开发。它采用双序列语言模型(DSLM)和注意力掩码策略,支持歌词到歌曲、歌词到声乐、伴奏到歌曲等多种音乐生成任务,并允许用户灵活调整生成内容的声学特性。SongCreator适用于音乐制作、教育、娱乐、内容创作等多个领域,为用户提供高效便捷的音乐解决方案。