多模态 - 智狐AI导航

Eagle

Eagle是一个由英伟达开发的多模态大模型，专长于处理高分辨率图像，提高视觉问答和文档理解能力。该模型采用多专家视觉编码器架构，通过简单的特征融合策略实现图像内容的深入理解。Eagle模型已开源，适用于多个行业，具有高分辨率图像处理、多模态理解、多专家视觉编码器、特征融合策略和预对齐训练等特点。

AI项目与工具 2025年06月12日 38 点赞 0 评论 606 浏览

Aria

Aria是首个开源多模态原生混合专家（MoE）模型，支持文本、代码、图像和视频的综合处理，具有强大的多模态任务处理能力和长上下文窗口，可高效应对复杂长数据。模型开源且可扩展，适用于多模态AI领域的研究与应用。

AI项目与工具 2025年06月12日 48 点赞 0 评论 607 浏览

心绪云脑AI

一款专注于情绪健康管理的AI智能工具，提供情绪记录、实时情绪识别与疏导、心理健康课程等服务，帮助用户更好地管理情绪，提升心理健康。

生活创意 2025年06月05日 31 点赞 0 评论 608 浏览

mPLUG

mPLUG-Owl3是一款由阿里巴巴开发的多模态AI模型，专注于理解和处理多图及长视频内容。该模型具备高推理效率和准确性，采用创新的Hyper Attention模块优化视觉与语言信息的融合。它已在多个基准测试中展现出卓越性能，并且其源代码和资源已公开，可供研究和应用。

AI项目与工具 2025年06月12日 73 点赞 0 评论 609 浏览

HuggingSnap

HuggingSnap 是一款基于 Hugging Face 的 AI 助手应用，采用轻量级多模态模型 SmolVLM2，支持图像、视频和文本的本地处理与生成。具备即时视觉描述、多语言文字识别与翻译、隐私保护等功能，适用于旅行、日常辅助、医疗及零售等场景，确保用户数据安全。

AI项目与工具 2025年06月12日 23 点赞 0 评论 611 浏览

山海大模型

山海大模型是一款由云知声推出的多模态人工智能模型，具备强大的知识储备和多模态交互能力。它能够通过文本、音频和图像等形式与用户进行实时互动，提供信息查询、知识学习和灵感激发等服务。主要功能包括内容生成与理解、知识问答、逻辑推理、代码能力以及多模态交互特色，如实时响应、情绪感知、音色切换和视觉场景理解。该模型可应用于智能客服、教育辅助、医疗咨询、个人助理和内容创作等多个领域。

AI项目与工具 2025年06月12日 55 点赞 0 评论 613 浏览

Gemma 3 QAT

Gemma 3 QAT 是谷歌推出的开源 AI 模型，采用量化感知训练技术，在降低显存需求的同时保持高性能。它支持多模态任务，具备 128,000-token 长上下文处理能力，并可在消费级 GPU 和边缘设备上运行。适用于视觉问答、文档分析、长文本生成等场景，同时兼容多种推理框架，便于部署。

AI项目与工具 2025年06月11日 44 点赞 0 评论 614 浏览

LTX Studio

LTX Studio 是由知名 AI 平台 Lightricks（也是 Facetune、Videoleap 和 Photoleap 等应用的开发者）推出的一项创新服务，它是一个生成式 AI 电影制作和视频短片生成平台。

Ai视频生成 2026年06月24日 0 点赞 0 评论 615 浏览

LabelLLM

一款开源免费的大模型对话标注平台

Ai平台模型 2026年06月24日 0 点赞 0 评论 615 浏览

LiveCC

LiveCC是一款由新加坡国立大学Show Lab与字节跳动联合开发的实时视频解说模型，基于自动语音识别字幕进行训练。它能够实时生成自然流畅的视频评论和回答相关问题，适用于体育、新闻、教育等多个场景。模型采用流式训练方法，结合大规模数据集和Qwen2-VL架构，具备低延迟和高质量的生成能力。LiveCC通过LiveSports-3K基准测试评估性能，广泛应用于视频内容分析与智能交互场景。

AI项目与工具 2025年06月11日 100 点赞 0 评论 615 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期