多模态 - 智狐AI导航

紫东太初 – 多模态大模型

“紫东太初”平台展现了中国科学院自动化研究所在人工智能领域的深厚实力。它不仅具备强大的多模态处理能力，还通过自监督学习和跨模态语义关联技术，为广泛的AI应用提供了坚实的模...

Ai平台模型 2026年06月24日 0 点赞 0 评论 845 浏览

Image

Image-01 是一款由 MiniMax 开发的文本到图像生成模型，能够根据文本描述精准生成高质量、高分辨率图像，支持多种纵横比输出。具备优秀的人物与物体渲染能力，适用于艺术创作、广告设计、影视制作等多个领域。支持高效批量生成，单次最多输出 9 张图像，每分钟处理 10 个请求，提升创作效率。采用扩散模型与 Transformer 架构，结合线性注意力与 MoE 技术，确保图像质量与生成效率。

AI项目与工具 2025年06月12日 95 点赞 0 评论 843 浏览

Tanka

Tanka是一款具备长期记忆和上下文理解能力的AI通讯工具，旨在提升团队协作效率。它支持智能回复、任务提醒、多模态消息处理，并可集成多种通讯平台。适用于项目管理、客户服务、销售支持及知识管理等多个场景，助力企业实现高效、智能的沟通与信息管理。

AI项目与工具 2025年06月12日 78 点赞 0 评论 842 浏览

HumanOmni

HumanOmni 是一款面向人类中心场景的多模态大模型，融合视觉与听觉信息，具备情感识别、面部描述、语音理解等功能。基于大量视频与指令数据训练，采用动态权重调整机制，支持多模态交互与场景理解。适用于影视分析、教育、广告及内容创作等领域，具备良好的可扩展性和灵活性。

AI项目与工具 2025年06月12日 92 点赞 0 评论 837 浏览

Ultravox

Ultravox 是一种多模态大型语言模型（LLM），能够直接处理文本和语音输入，无需额外的语音识别步骤。其核心技术包括多模态投影器，用于将音频数据转换为高维空间表示，显著提升语音理解和处理效率。该模型支持实时语音对话、多语言扩展及领域特定知识的学习，适用于智能客服、虚拟助手、语言学习、实时翻译及教育等领域。

AI项目与工具 2025年06月12日 51 点赞 0 评论 837 浏览

GTA

GTA是一项由上海交通大学与上海AI实验室合作研发的基准测试，专注于评估大型语言模型在真实世界环境中的工具调用能力。它包含229个精心设计的问题，涉及多个领域，并通过多模态输入输出和细粒度评估指标，全面衡量模型的工具使用效率与准确性。GTA可应用于智能助理开发、多模态交互、自动化客户服务、教育及科研等多个领域，助力提升人工智能系统的综合性能。

AI项目与工具 2025年06月12日 20 点赞 0 评论 835 浏览

LobeChat

LobeChat 是一款开源的 AI 聊天框架，支持多供应商集成，提供知识库管理、多模态交互（视觉识别和文本转语音）、插件扩展等功能。用户可通过一键部署创建私有 AI 聊天服务，并支持文件上传与管理。其应用场景广泛，包括客户服务、个人助理、教育、企业沟通、内容创作和语言学习等领域。

AI项目与工具 2025年06月12日 69 点赞 0 评论 833 浏览

MultiFoley

MultiFoley是一款基于多模态控制的音效生成系统，能够根据文本、音频或视频输入生成与视频同步的高质量Foley声音效果。它支持文本驱动和音频驱动的音效生成，同时具备音频扩展和质量控制功能，广泛应用于电影、游戏、动画及虚拟现实等领域，为用户提供灵活且高效的声音设计解决方案。

AI项目与工具 2025年06月12日 78 点赞 0 评论 832 浏览

VoiceCanvas

VoiceCanvas 是一款开源的多语言语音合成平台，基于 AI 技术提供高质量文字转语音服务，支持超过 50 种语言。用户可通过上传简短音频实现个性化声音克隆，并集成多种语音服务以保障输出质量。平台适用于内容创作、教育、企业及个人等多种场景，提升语音内容制作效率。

AI项目与工具 2025年06月11日 96 点赞 0 评论 831 浏览

Magic 1

Magic 1-For-1是由北京大学、Hedra Inc. 和 Nvidia 联合开发的高效视频生成模型，通过任务分解和扩散步骤蒸馏技术实现快速、高质量的视频生成。支持文本到图像和图像到视频两种模式，结合多模态输入提升语义一致性。采用模型量化技术降低资源消耗，适配消费级硬件。广泛应用于内容创作、影视制作、教育、VR/AR及广告等领域。

AI项目与工具 2025年06月12日 15 点赞 0 评论 831 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期