多模态 - 智狐AI导航

华知大模型5.0

华知大模型5.0是一款由同方知网与华为云联合开发的多模态人工智能平台，支持文本、图像等多种数据类型的处理与生成。其核心功能包括AIGC检测、学术搜问、图表解读、论文选题、文献理解以及知识推荐等，广泛应用于科技创新、学术研究、科学决策及数据分析等领域，致力于提升工作效率并促进智能化发展。

AI项目与工具 2025年06月12日 33 点赞 0 评论 679 浏览

CogAgent

CogAgent是一款由清华大学与智谱AI联合开发的多模态视觉大模型，专注于图形用户界面（GUI）的理解与导航。它具备视觉问答、视觉定位、GUI Agent、高分辨率图像处理及多模态能力，可应用于自动化测试、智能交互、多模态人工智能应用开发、企业级AI Agent平台等多个领域。CogAgent在多个基准测试中表现出色，尤其在GUI操作数据集上显著超越现有模型。

AI项目与工具 2025年06月12日 66 点赞 0 评论 680 浏览

Stable Diffusion 3.5

Stable Diffusion 3.5是一套由Stability AI开发的先进AI图像生成模型，包含多个版本以适应不同需求。它具备高定制性、高效的消费级硬件运行能力和开源许可，能够生成高质量、多样化的图像，支持多种风格和肤色表现。其核心技术基于多模态学习和优化的架构，适用于艺术创作、游戏开发、广告设计等多个领域。 ---

AI项目与工具 2025年06月12日 75 点赞 0 评论 680 浏览

OmniAlign

OmniAlign-V是由多所高校联合开发的多模态大语言模型对齐数据集，包含约20万个多模态样本，涵盖自然图像和信息图表。其核心功能包括提供高质量训练数据、提升模型的开放式问答能力、增强推理与创造力，并支持模型持续优化。数据集通过图像筛选、任务设计及后处理优化确保数据质量，适用于多模态对话系统、图像辅助问答、创意生成等多个应用场景。

AI项目与工具 2025年06月12日 99 点赞 0 评论 680 浏览

Infinity

Infinity-MM是智源研究院发布的千万级多模态指令数据集，包含4300万条样本，涵盖视觉问答、文字识别、文档分析及数学推理等多领域任务。它通过严格的筛选和去重保证数据质量，并采用合成数据生成技术扩展数据集规模。基于此数据集，智源研究院训练出了20亿参数的Aquila-VL-2B模型，在多项基准测试中表现出色，推动了多模态AI领域的研究与发展。

AI项目与工具 2025年06月12日 87 点赞 0 评论 680 浏览

魔搭GPT

魔搭社区ModelScope——汇聚各领域先进的机器学习模型，提供模型探索体验、推理、训练、部署和应用的一站式服务。在这里，共建模型开源社区，发现、学习、定制和分享心仪的模型。

Ai平台模型 2025年06月05日 37 点赞 0 评论 680 浏览

MMRole是一个由中国人民大学高瓴人工智能学院研究团队开发的多模态角色扮演智能体（MRPA）框架。该框架通过整合图像和文本，使智能体能够以特定角色进行更为自然和沉浸式的对话。MMRole框架包括一个大规模、高质量的多模态数据集和一个全面的评估方法，用于开发和评估MRPAs的性能。该框架为创建能够理解和生成与图像相关对话内容的智能体提供了新的可能，并扩展了其在教育、娱乐、客户服务、社交模拟和内容创

AI项目与工具 2025年06月12日 28 点赞 0 评论 681 浏览

龙猫LongCat

龙猫LongCat是美团自主研发的生成式AI大模型，具备多模态处理能力，可支持文本、图像等内容生成任务。其核心功能涵盖智能编程、会议记录、文档编辑、图形设计与视频脚本生成等，适用于多种办公场景。通过大规模预训练与混合训练策略，龙猫在实际应用中展现出高效、精准的特点，有效提升工作效率与创新能力。

AI项目与工具 2025年06月12日 70 点赞 0 评论 682 浏览

HunyuanCustom

HunyuanCustom是腾讯混元团队开发的多模态视频生成框架，支持图像、音频、视频和文本等多种输入条件，生成高质量定制化视频。采用文本-图像融合与图像ID增强技术，提升身份一致性和视频真实性。适用于虚拟人广告、虚拟试穿、视频编辑等场景，具备音频驱动和视频驱动两种生成方式，展现强大可控性与灵活性。

AI项目与工具 2025年06月11日 73 点赞 0 评论 682 浏览

阶跃星辰

一家专注于人工智能领域的创新公司，阶跃星辰以“智能阶跃，十倍每一个人的可能”为使命，旨在实现通用人工智能（AGI）。

Ai平台模型 2025年06月05日 34 点赞 0 评论 684 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期