多模态 - 智狐AI导航

悟道大模型

北京智源研究院开发的一系列超大规模智能模型系统，悟道大模型旨在在语言处理领域达到或超越国际先进水平。

Ai平台模型 2025年06月05日 62 点赞 0 评论 615 浏览

FluxMusic

FluxMusic 是一个开源的音乐生成工具，能够将文本描述转化为音乐。它采用先进的扩散模型和Transformer架构，通过修正流技术提高音乐的自然度和质量。该工具支持多种规模的模型，具备文本到音乐生成、语义理解、多模态融合等功能，适用于音乐创作、影视配乐、游戏音乐生成等多种场景。

AI项目与工具 2025年06月12日 66 点赞 0 评论 614 浏览

逻辑智能

逻辑智能（InsiderX）是一款企业级AI工具平台，支持构建智能化工作流，具备多模态感知和自主决策能力，可处理文本、图像和语音数据，实现业务流程自动化。平台支持私有知识库构建、数据安全保障及内容审查，广泛应用于金融、法律、生物医药等行业，助力企业提升效率和降低成本。

AI项目与工具 2025年06月12日 28 点赞 0 评论 613 浏览

Gemma 3n

Gemma 3n 是谷歌 I/O 开发者大会推出的端侧多模态 AI 模型，基于 Gemini Nano 架构，采用逐层嵌入技术，将内存占用压缩至 2-4B 参数模型水平。支持文本、图像、短视频和音频输入，可生成结构化文本输出，并具备音频转录、情感分析等功能。可在本地设备运行，响应时间低至 50 毫秒，适用于语音助手、内容生成和学术任务定制。

AI项目与工具 2025年06月11日 87 点赞 0 评论 612 浏览

MobA

MobA是一种基于多模态大型语言模型的移动智能体，通过高级全局智能体（GA）和低级局部智能体（LA）的两级架构，实现任务规划、分解与执行，支持跨应用操作和自动化流程。其反思模块助力高效处理复杂任务，广泛应用于个人助理、智能家居控制、移动设备自动化及教育等领域。

AI项目与工具 2025年06月12日 35 点赞 0 评论 612 浏览

AnythingLLM

AnythingLLM 是一款开源、多模态的 AI 客户端工具，支持文本、图像和音频输入，可将文档转化为上下文信息供语言模型使用。支持本地和云端部署，具备多用户管理、工作区隔离、丰富的文档格式支持和强大的 API 接口。适用于企业知识管理、学术研究、个人学习、内容创作等多种场景，保障数据隐私安全。

AI项目与工具 2025年06月12日 37 点赞 0 评论 611 浏览

星河易创AI

全功能一站式AI创作平台，集成了行业领先的ChatGPT4.0和ChatGPT3.5对话系统，Midjourney的绘画能力，DALL-E的文本到图像创造力，以及GPT4-ALL的多模态能力。

AI写作对话 2025年06月05日 83 点赞 0 评论 610 浏览

UNI

UNI-CourseHelper是一款基于AI技术的学习辅助工具，支持多模态问答、长文解析、思维链推理等功能，覆盖多个学科领域。通过Markdown格式展示答案，支持图片和文档提问，适用于学生、教师及研究人员，提升学习效率与理解深度。

AI项目与工具 2025年06月12日 86 点赞 0 评论 610 浏览

阶跃星辰

一家专注于人工智能领域的创新公司，阶跃星辰以“智能阶跃，十倍每一个人的可能”为使命，旨在实现通用人工智能（AGI）。

Ai平台模型 2025年06月05日 34 点赞 0 评论 609 浏览

Emotion

Emotion-LLaMA是一款基于多模态输入的情绪识别与推理模型，结合音频、视觉和文本信息，提升情感理解的准确性与可解释性。模型采用改进版LLaMA架构，通过指令调整增强情感处理能力，并依托自建的MERR数据集进行训练与验证。在多个挑战赛中表现优异，适用于人机交互、教育、心理健康、客户服务等领域，具有广泛的应用前景。

AI项目与工具 2025年06月12日 85 点赞 0 评论 609 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期