多模态

Magma

Magma是微软研究院开发的多模态AI基础模型,具备理解与执行多模态任务的能力,覆盖数字与物理环境。它融合语言、空间与时间智能,支持从UI导航到机器人操作的复杂任务。基于大规模视觉-语言和动作数据预训练,Magma在零样本和微调设置下表现优异,适用于网页操作、机器人控制、视频理解及智能助手等多个领域。

GPTBiz

GPTBiz代表着在人工智能领域的一次重要创新,它不仅仅是一个产品,而是一个为中国市场量身定制的大语言模型应用平台。随着人工智能技术的迅猛发展,对于能够快速、

S2V

S2V-01是MiniMax研发的视频生成模型,基于单图主体参考架构,可快速生成高质量视频。它能精准还原图像中的面部特征,保持角色一致性,并通过文本提示词灵活控制视频内容。支持720p、25fps高清输出,具备电影感镜头效果,适用于短视频、广告、游戏、教育等多种场景,具有高效、稳定和高自由度的特点。

LangGraph WhatsApp Agent

LangGraph WhatsApp Agent 是一个开源 AI 工具,用于在 WhatsApp 上构建智能代理。支持多代理架构、多模态交互及持久化对话状态,集成多种语言模型,提供安全可靠的通信环境。适用于客户服务、信息推送、教育辅导等多个场景,便于开发者快速构建和部署高效的 WhatsApp 机器人。

Video

Video-LLaVA2是一款由北京大学ChatLaw课题组开发的开源多模态智能理解系统。该系统通过时空卷积(STC)连接器和音频分支,显著提升了视频和音频的理解能力。其主要功能包括视频理解、音频理解、多模态交互、视频问答和视频字幕生成。时空建模和双分支框架是其核心技术原理。Video-LLaVA2广泛应用于视频内容分析、视频字幕生成、视频问答系统、视频搜索和检索、视频监控分析及自动驾驶等领域。

Kimi

Kimi-VL是月之暗面推出的轻量级多模态视觉语言模型,支持图像、视频、文档等多种输入形式。其基于轻量级MoE架构和原生分辨率视觉编码器,具备强大的图像感知、数学推理和OCR能力。在长上下文(128K)和复杂任务中表现优异,尤其在多模态推理和长视频理解方面超越同类模型。适用于智能客服、教育、医疗、内容创作等多个领域。

视界一粟YiSu

北京极佳视界科技有限公司联合清华大学自动化系共同发布的Sora级视频生成大模型。

无限画

无限画是一款方便、快捷并基于人工智能技术的免费AI绘画和创作平台,提供多种AI绘画工具和AIGC创作功能,如文生图、图生图等。

LlamaV

LlamaV-o1是由阿联酋穆罕默德·本·扎耶德人工智能大学等机构开发的多模态视觉推理模型,具备结构化推理和透明性,支持文本、图像和视频等多种模态的信息处理。该模型引入了VRC-Bench基准测试,涵盖4000多个推理步骤,用于全面评估推理能力。其性能优于多个开源模型,适用于医疗影像分析、金融数据解读、教育辅助和工业检测等场景,具有高准确性和可解释性。

Awesome Chinese LLM

整理了开源的中文大语言模型(LLM),主要关注规模较小、可私有化部署且训练成本较低的模型,目前已收录了100多个相关资源。