多模态

Sa2VA

Sa2VA是由字节跳动联合多所高校开发的多模态大语言模型,结合SAM2与LLaVA技术,实现对图像和视频的密集、细粒度理解。它支持指代分割、视觉对话、视觉提示理解等多种任务,具备零样本推理能力和复杂场景下的高精度分割效果。适用于视频编辑、智能监控、机器人交互、内容创作及自动驾驶等多个领域。

PaliGemma 2

PaliGemma 2是一款由Google DeepMind研发的视觉语言模型(VLM),结合了SigLIP-So400m视觉编码器与Gemma 2语言模型,支持多种分辨率的图像处理。该模型具备强大的知识迁移能力和出色的学术任务表现,在OCR、音乐乐谱识别以及医学图像报告生成等方面实现了技术突破。它能够处理多模态任务,包括图像字幕生成、视觉推理等,并支持量化和CPU推理以提高计算效率。

DINO

DINO-X是一款由IDEA研究院开发的通用视觉大模型,具备开放世界对象检测与理解的能力。它支持多种提示类型,无需用户额外输入即可识别图像中的任意对象,并在多个基准测试中刷新了性能记录。DINO-X拥有Pro和Edge两个版本,分别针对高性能需求和边缘设备优化。其应用范围涵盖自动驾驶、智能安防、工业检测及机器人视觉等领域,助力行业创新与发展。

Diff

Diff-Instruct是一种基于积分Kullback-Leibler散度的知识迁移方法,用于从预训练扩散模型中提取知识并指导生成模型的训练。它能够在无需额外数据的情况下,通过最小化IKL散度提升生成模型的性能。Diff-Instruct适用于多种场景,包括预训练扩散模型的蒸馏、现有GAN模型的优化以及视频生成等。

星河易创AI

全功能一站式AI创作平台,集成了行业领先的ChatGPT4.0和ChatGPT3.5对话系统,Midjourney的绘画能力,DALL-E的文本到图像创造力,以及GPT4-ALL的多模态能力。

SignGemma

SignGemma是由谷歌DeepMind团队开发的全球最强大的手语翻译AI模型,专注于将美国手语(ASL)实时翻译成英语文本。通过多模态训练方法,结合视觉和文本数据,实现高准确率和低延迟的翻译,响应时间低于0.5秒。支持端侧部署,保护用户隐私,适用于教育、医疗和公共服务等场景。

GR00T N1

GR00T N1 是英伟达推出的开源人形机器人基础模型,支持多模态输入并具备复杂任务执行能力。采用双系统架构,结合视觉-语言模型与扩散变换器,实现精准动作控制。基于大规模数据训练,适应多种机器人形态和任务场景,广泛应用于物流、制造、医疗等领域,提升自动化水平与操作效率。

雅意大模型

雅意大模型是安全可靠的企业级专属大模型,具备5大核心能力,共100多个特色技能。

Neural4D 2o

Neural4D 2o 是一款基于多模态数据训练的 3D 大模型,支持文本、图像、3D 和运动数据输入,实现高精度的 3D 内容生成与编辑。具备上下文一致性、角色身份保持、换装和风格迁移等功能,支持自然语言指令操作。采用 Transformer 编码器与 3D DiT 解码器架构,原生兼容 MCP 协议,提升创作效率与交互体验,适用于 3D 内容创作、游戏开发、影视动画等多个领域。

GoCharlie

GoCharlie 是一个专为零售行业设计的全栈 AI 平台,集成了定制化的大型语言模型 Charlie。它支持多模态数据处理,包括文本、图像、视频和音频,为企业提供内容创作、客户服务、营销活动策划及数据分析等全方位解决方案,帮助企业提升运营效率和客户满意度。